GAN的反击：朱俊彦CVPR新作GigaGAN，出图速度秒杀Stable Diffusion-51CTO.COM

图像生成是当前 AIGC 领域最热门的方向之一。近期发布的图像生成模型如 DALL・E 2、Imagen、Stable Diffusion 等等，开创了图像生成的新时代，实现了前所未有的图像质量和模型灵活性水平。扩散模型也成为目前占据主导地位的范式。然而，扩散模型依赖于迭代推理，这是一把双刃剑，因为迭代方法可以实现具有简单目标的稳定训练，但推理过程需要高昂的计算成本。

在扩散模型之前，生成对抗网络（GAN）是图像生成模型中常用的基础架构。相比于扩散模型，GAN 通过单个前向传递生成图像，因此本质上是更高效的，但由于训练过程的不稳定性，扩展 GAN 需要仔细调整网络架构和训练因素。因此，GAN 擅长对单个或多个对象类进行建模，但扩展到复杂数据集（更不用说现实世界）则极具挑战性。因此，超大型模型、数据和计算资源现在都专用于扩散模型和自回归模型。

但作为一种高效的生成方法，许多研究者并没有完全放弃 GAN 方法。例如，最近英伟达提出了 StyleGAN-T 模型；港中文等用基于 GAN 的方法生成流畅视频，这些都是 CV 研究者在 GAN 上做的进一步尝试。

现在，在一篇 CVPR 2023 论文中，来自 POSTECH、卡耐基梅隆大学和 Adobe 研究院的研究者们联合探究了关于 GAN 的几个重要问题，包括：

GAN 能否继续扩大规模并从大量资源中受益，GAN 遇到瓶颈了吗？
是什么阻止了 GAN 的进一步扩展，我们能否克服这些障碍？

论文链接：https://arxiv.org/abs/2303.05511
项目链接：https://mingukkang.github.io/GigaGAN/

值得注意的是，CycleGAN 的主要作者、曾获 2018 年 ACM SIGGRAPH 最佳博士论文奖的朱俊彦是这篇 CVPR 论文的第二作者。

该研究首先使用 StyleGAN2 进行实验，并观察到简单地扩展主干网络会导致训练不稳定。基于此，研究者确定了几个关键问题，并提出了一种在增加模型容量的同时稳定训练的技术。

首先，该研究通过保留一组滤波器（filter）并采用特定于样本的线性组合来有效地扩展生成器的容量。该研究还采用了扩散上下文（diffusion context）中常用的几种技术，并证实它们为 GAN 带来了类似的好处。例如，将自注意力（仅图像）和交叉注意力（图像 - 文本）与卷积层交织在一起可以提高模型性能。

该研究还重新引入了多尺度训练，并提出一种新方案来改进图像 - 文本对齐和生成输出的低频细节。多尺度训练允许基于 GAN 的生成器更有效地使用低分辨率块中的参数，从而实现了更好的图像 - 文本对齐和图像质量。经过仔细调整后，该研究提出了十亿参数的新模型 GigaGAN，并在大型数据集（例如 LAION2B-en）上实现了稳定和可扩展的训练，实验结果如下图 1 所示。

此外，该研究还采用了多阶段方法 [14, 104]，首先以 64 × 64 的低分辨率生成图像，然后再上采样到 512 × 512 分辨率。这两个网络是模块化的，并且足够强大，能够以即插即用的方式使用。

该研究表明，基于文本条件的 GAN 上采样网络可以用作基础扩散模型的高效且更高质量的上采样器，如下图 2 和图 3 所示。

上述改进使 GigaGAN 远远超越了以前的 GAN：比 StyleGAN2 大 36 倍，比 StyleGAN-XL 和 XMC-GAN 大 6 倍。虽然 GigaGAN 十亿（1B）的参数量仍然低于近期的大型合成模型，例如 Imagen (3.0B)、DALL・E 2 (5.5B) 和 Parti (20B)，但研究者表示他们尚未观察到关于模型大小的质量饱和。

GigaGAN 在 COCO2014 数据集上实现了 9.09 的零样本 FID，低于 DALL・E 2、Parti-750M 和 Stable Diffusion。

此外，与扩散模型和自回归模型相比，GigaGAN 具有三大实用优势。首先，它的速度快了几十倍，在 0.13 秒内生成了 512 像素的图像（图 1）。其次，它可以在 3.66 秒内合成 4k 分辨率的超高分辨率图像。第三，它具有可控的潜在向量空间，适用于经过充分研究的可控图像合成应用，例如风格混合（图 6）、prompt 插值（图 7）和 prompt 混合（图 8）。

该研究成功地在数十亿现实世界图像上训练了基于 GAN 的十亿参数规模模型 GigaGAN。这表明 GAN 仍然是文本到图像合成的可行选择，研究人员们应考虑将其用于未来的积极扩展。

方法概览

研究者训练了一个生成器 G (z, c)，在给定一个潜在编码 z∼N (0, 1)∈R^128 和文本调节信号 c 的情况下，预测一个图像 x∈R^(H×W×3)。他们使用一个判别器 D (x, c) 来判断生成的图像的真实性，与训练数据库 D 中的样本相比较，后者包含图像 - 文本对。

尽管 GAN 可以成功地在单类和多类数据集上生成真实的图像，但在互联网图像上进行开放式文本条件合成仍然面临挑战。研究者假设，目前的限制源于其对卷积层的依赖。也就是说，同样的卷积滤波器被用来为图像所有位置上的所有文本条件进行通用图像合成函数建模，这是个挑战。有鉴于此，研究者试图通过根据输入条件动态选择卷积滤波器，并通过注意力机制捕捉长程依赖，为参数化注入更多的表现力。

GigaGAN 高容量文本 - 图像生成器如下图 4 所示。首先，研究者使用预训练的 CLIP 模型和学习过的编码器 T 来提取文本嵌入。使用交叉注意力将局部文本描述符提供给生成器。全局文本描述符，连同潜在编码 z，被送入风格映射网络 M 以产生风格码 w。风格码使用论文中的风格 - 自适应内核选择调节主生成器，如右侧所示。

生成器通过将中间特征转换为 RGB 图像来输出一个图像金字塔。为了达到更高的容量，研究者在每个尺度上使用多个注意力层和卷积层（附录 A2）。他们还使用了一个单独的上采样器模型，该模型未在此图中显示。