2025 年了,GAN 能否击败扩散模型?答案是 Yes!
本周五,AI 社区开始讨论一种全新极简主义 GAN(生成对抗网络)。
现代版 GAN 基准论文成为了周五 HuggingFace 热度最高的研究。该论文也入选了 NeurIPS 2024。
它并不像以往那样走 tricks 路径 —— 通过一场「现代化」改造,GAN 现在可以进行更长时间的训练(与扩散模型的训练步骤数相当),一旦 GAN 训练时间足够长,并且架构足够强大,它们就可以胜过扩散模型,并成为更好、更快、更小的模型。
来自布朗大学、康奈尔大学的研究者们表示,通过引入一个新的损失函数,我们就可以解决以往 GAN 模式崩溃(collapse)和不稳定性的问题。
为了证明可行性,他们测试了 GAN 里流行的 StyleGAN2,通过新的理论进行最简升级(修改后改名为「R3GAN」)。结果虽然模型变得更简单了,但 R3GAN 在图像生成和数据增强任务上性能还是超过了所有 GAN 模型和扩散模型。
新的方法给未来的研究奠定了一个更为整洁、可扩展的基础。
- 论文链接:https://arxiv.org/abs/2501.05441
- GitHub 链接:https://github.com/brownvc/R3GAN
- HuggingFace:https://huggingface.co/spaces/multimodalart/R3GAN
有一种广泛流传的说法认为 GAN 很难训练,并且文献中的 GAN 架构充斥着大量的经验性 tricks。但是作者团队提供了反驳这一说法的证据,并以更有原则的方式建立了一个现代版 GAN 基线。
在该研究中,作者首先通过推导出一个行为良好的正则化相对 GAN 损失函数,解决了模式 dropping 和不收敛问题,而这些问题在以前经常是通过大量 ad-hoc tricks 来应对的。他们从数学层面分析了这一损失函数,并证明它具有局部收敛保证,这与大多数现有的相对损失函数不同。
其次,这个损失函数能够抛弃所有的 ad-hoc tricks,并用现代版架构替代常见的 GAN 中所使用的过时的骨干网络。以 StyleGAN2 为例,他们展示了一个简化过的现代版路线图 ——R3GAN(Re-GAN)。尽管方法非常简单,但它在 FFHQ、ImageNet、CIFAR 和 Stacked MNIST 数据集上却超越了 StyleGAN2,并且在与最先进的 GAN 和扩散模型的比较中表现出色。
在生成式 AI 技术兴起之前,GAN 是 AI 领域中的热门研究方向,该方法能让我们能够在一次前向传递中生成高质量图像。然而我们无法忽略的是,Goodfellow 等人构建的原始目标因其极小极大特性而极难优化,训练的不稳定性一直对 GAN 的研究产生着负面影响。
与扩散模型等其他生成模型相比,GAN 的发展一直比较缓慢。考虑到一旦得到了表现良好的损失函数,我们就可以自由地设计现代 SOTA 主干架构。在新工作中,作者剥离了 StyleGAN 的所有功能,找出那些必不可少的功能,然后从现代 ConvNets 和 transformer 中借用了架构设计,包括一系列 ResNet 设计、初始化、重采样、分组卷积、no normalization 等,引出了一种比 StyleGAN 更简单的设计。
该工作率先从数学上证明了 GAN 不需要通过改进的正则化损失来进行训练。
提高训练稳定性
该研究证明,通过将目标进展与正则化训练损失结合起来,GAN 获得了更高的训练稳定性,能够用现代骨干网络升级 GAN。
首先,该研究提出了一个新的目标,通过零中心梯度惩罚增强 RpGAN,提高稳定性。该研究从数学上证明,梯度惩罚 RpGAN 与正则化经典 GAN 享有相同的局部收敛保证,并且删除正则化方案会导致不收敛。
在定义 GAN 的目标时,研究者需要应对两个挑战:稳定性和多样性。为了在这两方面同时取得进展,该研究将 stable 方法与基于理论的简单正则化器结合起来。
传统 GAN 被表述为判别器 D_ψ 和生成器 G_θ 之间的极小极大博弈:
在实际实现中,传统 GAN 容易受到两种常见故障场景的影响:模式 collapse/dropping 和不收敛。
该研究采用了一种略有不同的极小极大博弈 ——RpGAN,由 Jolicoeur-Martineau 等人提出,以解决模式 dropping 问题。
一般的 RpGAN 定义为:
然而,经验表明,未正则化的 RpGAN 表现不佳。
为了解决 RpGAN 不收敛的问题,该研究探索梯度惩罚作为解决方案,因为事实证明,零中心梯度惩罚 (0-GP) 有助于经典 GAN 的收敛训练。两个最常用的 0-GP 是 R1 和 R2:
研究团队认为实际的解决方案是在真实数据和虚假数据上对 D 进行正则化。此外,如 Fang et al.(2022) 所言,真实数据和虚假数据具有大致相同的梯度范数可能会减少判别器过拟合。
新基线的路线图 — R3GAN
行为良好的 RpGAN + R1 + R2 损失函数缓解了 GAN 优化中的问题,同时根据近期的骨干网络进展,这使他们能够构建一个极简版基线 ——R3GAN。这不仅仅只是提出一种新方法,而是从 StyleGAN2 基线中绘制出一条路线图。
这个模型(配置 A)包括一个类似于 VGG 的骨干网络(G),一个 ResNet(D),一些有助于基于风格生成的 tricks,以及许多作为修补弱骨干网络的 tricks。接着去除了 StyleGAN2 中所有非必要的特性(配置 B),并应用他们的损失函数(配置 C),逐步现代化网络骨干(配置 D-E)。
架构比较
实验细节
模式恢复 — StackedMNIST
研究团队在 StackedMNIST(无条件生成)上重复了之前在 1000-mode 收敛实验中的做法,但这一次使用了更新后的架构,并与最先进的 GAN 及基于似然的方法进行了比较。
在 Stacked-MNIST 上使用配置 E 生成的样本定性示例
FID — FFHQ-256
研究者训练配置 E 模型直到收敛,并在 FFHQ 数据集上使用优化的超参数和训练计划进行 256×256 分辨率的无条件生成。
在 FFHQ-256 上使用配置 E 生成的样本定性示例
FID — FFHQ-64
为了与 EDM 进行直接比较,研究团队在 64×64 分辨率的 FFHQ 数据集上评估了模型。为此,他们去除了 256×256 模型中的两个最高分辨率阶段,从而得到了一个生成器,其参数数量不到 EDM 的一半。尽管如此,他们的模型在该数据集上的表现仍是超过了 EDM,并且只需要一次函数评估。
FID — CIFAR-10
研究者训练配置 E 模型直到收敛,并在 CIFAR-10 数据集上使用优化的超参数和训练计划进行条件生成。尽管模型容量相对较小,他们的方法在 FID 指标上超过了许多其他 GAN 模型。
在 CIFAR-10 上使用配置 E 生成的样本的定性示例
FID — ImageNet-32
研究者训练配置 E 模型直到收敛,在 ImageNet-32 数据集上使用优化的超参数和训练计划进行条件生成,并与近期的 GAN 模型和扩散模型进行了比较(见下图)。
作者团队调整了模型生成器的参数数量,使其与 StyleGAN-XL 的生成器相匹配(84M 参数)。尽管使用了比判别器小 60% 的模型,并且没有使用预训练的 ImageNet 分类器,该方法仍然达到了可媲美的 FID 值。
在 ImageNet-32 上使用配置 E 生成的样本定性示例
FID — ImageNet-64
研究团队在 ImageNet-64 数据集上评估了他们的模型,以测试其可扩展性。他们在 ImageNet-32 模型的基础上增加了一个分辨率阶段,从而得到了一个包含 104M 参数的生成器。该模型的参数量几乎是依赖于 ADM 骨干网络的扩散模型 的三分之一,这些模型的参数量大约为 300M。
尽管模型较小,并且他们的模型在一步生成样本的同时,其在 FID 指标上超越了更大参数量的扩散模型(见下图)。
在 ImageNet-64 上使用配置 E 生成的样本定性示例
新 GAN 研究正在社区获得越来越多的关注。StabilityAI 的研究总监也转发了该篇论文,并对作者团队去除了 StyleGAN 中许多复杂性并且提高性能一点,给出了高度评价。
GAN 加入了现代化元素之后,是否可以重新起航逆袭 Stable Diffusion?对此,你怎么看?