图像生成里程碑!VAR:自回归模型首超Diffusion Transformer!(北大&字节)
论文:https://arxiv.org/pdf/2404.02905.pdf
代码:https://github.com/FoundationVision/VAR
demo:https://var.vision/
视觉自回归建模(VAR),这是一种重新定义图像上的自回归学习的新一代范式。VAR将自回归学习视为粗到细的“下一尺度预测”或“下一分辨率预测”,与标准的光栅扫描“下一个token预测”有所不同。这种简单直观的方法使得自回归(AR)transformers能够快速学习视觉分布,并且具有良好的泛化能力:VAR首次使得类似GPT风格的自回归模型在图像生成方面超越了diffusion transformers。在ImageNet 256×256基准测试中,VAR显著改善了AR基线,将Fréchet inception distance(FID)从18.65降低到1.80,将inception score(IS)从80.4提高到356.4,同时推理速度提高了20倍。
经验验证还表明,VAR在多个维度上优于Diffusion Transformer(DiT),包括图像质量、推理速度、数据效率和可扩展性。扩大VAR模型规模表现出明显的幂律尺度定律,类似于LLMs中观察到的情况,相关系数接近-0.998,是坚实的证据。VAR还展示了在图像修复、修补和编辑等下游任务中的zero-shot泛化能力。这些结果表明,VAR已经初步模拟了LLMs的两个重要属性:scaling laws和zero-shot泛化。已经发布了所有模型和代码,以鼓励探索自回归/VAR模型用于视觉生成和统一学习。
介绍
GPT系列和其他自回归(AR)大语言模型(LLMs)的出现标志着人工智能领域的新纪元。这些模型在泛化性和多功能性方面表现出有前途的智能,尽管存在幻觉等问题,但仍被认为是迈向通用人工智能(AGI)的坚实一步。这些大型模型的核心是一种自监督学习策略——预测序列中的下一个token,这是一种简单而深刻的方法。对这些大型AR模型成功的研究强调了它们的可扩展性和泛化能力:前者通过scaling laws的例证允许从较小的模型预测大型模型的性能,从而指导更好地资源分配;而后者,正如zero-shot和few-shot学习所证实的那样,强调了无监督训练模型适应不同、未见任务的能力。这些特性显示了AR模型在从大量未标注数据中学习的潜力,概括了“AGI”的本质。
与此同时,计算机视觉领域一直在努力发展大型的自回归模型或世界模型,旨在模拟它们令人印象深刻的可扩展性和泛化能力。像VQGAN和DALL-E这样的开创性工作以及它们的后继模型展示了自回归模型在图像生成中的潜力。这些模型利用视觉tokenizer将连续图像离散化为2D token网格,然后将其展平为1D序列进行自回归学习(如图2 b所示),类似于顺序语言建模的过程(如图2 a所示)。然而,这些模型的scaling laws仍然未被充分探索,更令人沮丧的是,它们的性能明显落后于扩散模型,如图3所示。与大语言模型的显著成就形成鲜明对比,自回归模型在计算机视觉领域的潜力似乎有些受限。
自回归建模需要定义数据的顺序。本文的工作重新考虑了如何“order”图像。人类通常以分层方式感知或创建图像,先捕捉全局结构,然后是局部细节。这种多尺度、由粗到细的方法自然地为图像提供了一种“order”。受到广泛使用的多尺度设计的启发,本文将图像的自回归学习定义为图2(c)中的“下一尺度预测”,与图2(b)中的传统“下一个token预测”有所不同。本文的方法从将图像编码成多尺度token 图开始。然后,自回归过程从1×1 token 图开始,并逐渐扩展分辨率:在每一步,transformer根据所有先前的token 图预测下一个更高分辨率的token 图。这种方法称为Visual AutoRegressive(VAR)建模。
VAR直接利用了类似于GPT-2的transformer架构进行视觉自回归学习。在ImageNet 256×256基准测试中,VAR显着改善了其自回归基线,实现了1.80的Fréchet inception距离(FID)和356.4的inception分数(IS),推理速度提高了20倍。值得注意的是,VAR在FID/IS、数据效率、推理速度和可扩展性等方面超过了diffusion transformer(DiT)—— 诸如Stable Diffusion 3.0和SORA等领先的扩散系统的基础。VAR模型还展示了与LLM中观察到的相似的scaling laws。最后,展示了VAR在诸如图像修复、生成和编辑等任务中的zero-shot泛化能力。总而言之,本文对社区的贡献包括:
- 使用多尺度自回归范式和下一尺度预测的新视觉生成框架,为计算机视觉中的自回归算法设计提供新的见解。
- 对VAR模型的scaling laws和zero-shot泛化潜力进行了实证验证,这些潜力最初模拟了大语言模型(LLMs)的吸引人特性。
- 在视觉自回归模型性能方面取得突破,使得类似于GPT的自回归方法首次超越了强大的扩散模型在图像合成方面的性能。
- 提供了全面的开源代码套件,包括VQ tokenizer和自回归模型训练pipelines,以推动视觉自回归学习的进展。
相关工作
大型自回归语言模型的属性
Scaling laws。 幂律scaling laws在数学上描述了模型参数、数据集大小、计算资源的增长与机器学习模型性能改进之间的关系,具有几个明显的优点。首先,它们通过扩大模型规模、数据规模和计算成本的缩放来便于推断出更大模型的性能。这有助于节省不必要的成本,并提供了分配训练预算的原则。其次,scaling laws证明了性能的持续且非饱和增长,证实了它们在增强模型能力方面的持续优势。
受神经语言模型中scaling laws原理的启发,提出了几种大语言模型[9, 76, 70, 27, 63, 64],体现了增加模型规模通常会产生更好性能结果的原则。基于transformer解码器架构的GPT经历了生成式预训练,并将模型规模扩展到前所未有的1750亿参数。LLama发布了一系列规模从70亿到700亿参数的预训练和微调的大语言模型(LLMs)。将scaling laws应用于语言模型的明显有效性展示了对视觉模型进行升级的有前途潜力。
Zero-shot 泛化。 zero-shot泛化指的是模型,特别是大语言模型,能够执行未经明确训练的任务的能力。在视觉领域,人们对基础模型(如CLIP、SAM、Dinov2)的 zero-shot和上下文学习能力越来越感兴趣。像Painter和LVM这样的创新利用视觉提示设计上下文学习范式,从而促进了对下游未见任务的泛化。
视觉生成
图像分词器和自回归模型。 语言模型依赖于字节对编码(BPE)或WordPiece算法进行文本分词。基于语言模型的视觉生成模型也需要将2D图像编码为1D token 序列。早期的尝试VQVAE已经证明了将图像表示为离散token的能力,尽管重建质量相对较低。VQGAN通过引入对抗损失和感知损失来提高图像保真度,并采用仅解码器的transformer以标准扫描方式生成图像token。VQVAE-2和RQTransformer也遵循VQGAN的扫描方式,但通过额外的比例或堆叠代码进一步改进了VQVAE。Parti利用ViT-VQGAN的基础架构将transformer模型大小扩展到200亿参数,取得了在文本到图像合成方面的显著成果。
Masked-prediction模型。MaskGIT采用了一个带有VQ自编码器的masked预测框架,通过“贪心”算法生成基于图像tokens的图像。MagViT将这种方法应用到视频数据中,而MagViT-2通过引入改进的VQVAE改进了MaskGIT。MUSE将MaskGIT的架构扩展到30亿参数,并将其与T5语言模型合并,在文本到图像合成方面设定了新的基准。
扩散模型 被认为是视觉合成的前沿,因为它们具有出色的生成质量和多样性。扩散模型的进展集中在改进的采样技术、更快的采样和架构增强。Imagen将T5语言模型用于文本条件,并通过多个独立的扩散模型进行级联生成和超分辨率来构建图像生成系统。潜在扩散模型(LDM)在latent space中应用扩散,提高了训练和推理的效率。DiT用基于transformer的架构替换了传统的U-Net,被用于最近的图像或视频合成系统,如Stable Diffusion 3.0和SORA。
方法
初步:通过下一个token预测进行自回归建模
讨论。 上述的tokenization和展平使得可以在图像上进行下一个token自回归学习,但它们引入了几个问题:
空间局部性的破坏(问题2)是显而易见的。关于问题1,本文在附录中提供了实证证据,分析了流行的量化自编码器中的token依赖关系,并揭示了显著的双向相关性。关于问题3的计算复杂性证明在附录中有详细说明。这些理论和实际限制要求重新思考图像生成中的自回归模型。
通过下一尺度预测的视觉自回归建模
实现细节
VAR tokenizer。 如前所述,使用基本的VQVAE架构,采用多尺度量化方案,并增加了个K额外的卷积层(0.03M额外参数)。对所有尺度使用共享的codebook,其中V=4096,潜在维度为32。与基准方法[19]一样,分词器也在OpenImages上使用复合损失(5)进行训练。更多细节请参阅附录。
VAR transformer。 本文的主要重点是VAR算法,因此保持了简单的模型架构设计。本文采用了类似于GPT-2和VQGAN的标准解码器transformer的架构,唯一的修改是用自适应归一化(AdaLN)替代传统的层归一化——这个选择受到了其在视觉生成模型中被广泛采用和被证明有效的启发。对于类别条件的合成,使用类别embedding作为起始token[s],也作为AdaLN的条件。本文没有使用现代大语言模型中的高级技术,比如旋转位置嵌入(RoPE)、SwiGLU MLP或RMS Norm。本文的模型形状超参数遵循一个简单的规则,即宽度W、头部数量h和丢失率dr随着深度d线性缩放,如下所示:
因此,深度d为的VAR transformer的主要参数数量由以下公式给出:
实验结果
这一部分首先比较了VAR与其他图像生成模型家族在性能和效率方面的表现。并进行了评估。然后对VAR模型的可扩展性和泛化能力进行了评估。最后进行了一些消融实验和可视化。
最先进的图像生成
设置。 在ImageNet 256×256和512×512的条件生成基准上测试了深度为16、20、24和30的VAR模型,并将它们与最先进的图像生成模型进行了比较。在所有基于VQVAE的AR或VAR模型中,VQGAN和本文的模型使用相同的架构(CNN)和训练数据(OpenImages)进行VQVAE训练,而ViT-VQGAN使用ViT自编码器,并且它和RQTransformer直接在ImageNet上训练VQVAE。结果总结如下表所示。
整体比较。
效率比较。 传统的自回归(AR)模型在计算成本上存在很大问题,因为图像token的数量与图像分辨率的平方成正比。完整的自回归生成个token需要的解码迭代和的总计算量。相比之下,VAR只需要的迭代和的总计算量。表1中报告的墙钟时间也提供了实证证据,即使具有更多的模型参数,VAR的速度也比VQGAN和ViT-VQGAN快约20倍,达到了高效GAN模型的速度,后者只需要1步即可生成一幅图像。
与流行的 diffusion transformer相比。 VAR模型在多个方面都超过了最近流行的扩散模型Diffusion Transformer(DiT),它是最新的Stable Diffusion 3和SORA的前身:
- 在图像生成的多样性和质量(FID和IS)方面,具有20亿参数的VAR始终优于DiT-XL/2,L-DiT-3B和L-DiT-7B。VAR还保持了可比的精度和召回率。
- 对于推理速度,DiT-XL/2需要比VAR多45倍的墙钟时间,而3B和7B模型则需要更多。
- VAR被认为更具数据效率,因为它只需要350个训练周期,而DiT-XL/2需要1400个。
- 就可扩展性而言,图3和表1显示,DiT在超过6.75亿参数时只能获得微小甚至负面的增益。相比之下,VAR的FID和IS不断提高,与scaling laws研究相一致。这些结果表明,与DiT等模型相比,VAR是一个更高效、可扩展的图像生成模型。
幂律 scaling laws
背景。 先前的研究[30, 22, 27, 1]已经确定,扩展自回归(AR)大语言模型(LLMs)会导致测试损失的可预测下降。这一趋势与参数数量、训练token 和最佳训练计算呈现出一种幂律关系:
这些观察到的scaling laws不仅验证了LLM的可扩展性,而且作为AR建模的预测工具,有助于根据较小的对应物估计更大的AR模型的性能,从而通过大型模型性能预测节省资源使用。鉴于由LLM带来的这些吸引人的规模律性质,它们在计算机视觉中的复制因此具有重要意义。
设置scalingVAR模型。 遵循[30, 22, 27, 1]的协议,检查本文的VAR模型是否符合类似的scaling laws。在12种不同大小的模型上进行了训练,参数从18M到2B不等,使用包含1.28M张图片(或根据VQVAE为870B的图像token)的ImageNet训练集进行每轮训练。对于不同大小的模型,训练持续了200到350个epoch,最大的token数量达到3050亿。以下将重点放在模型参数和给定足够token数的最优训练计算上的scaling laws。
使用模型参数N的scaling laws。 本文首先调查了随着VAR模型大小增加而变化的测试损失趋势。对于深度为的VAR transformer,参数数量,如公式(8)所示。将从6变化到30,得到了12个模型,参数数量从18.5M到2.0B不等。本文评估了在ImageNet验证集上的最终测试交叉熵损失和token预测错误率,该验证集包含50,000张图片。本文计算了最后一个尺度(在最后一个下一个尺度的自回归步骤中)以及全局平均的和。结果如图5所示,观察到作为函数的清晰的幂律scaling趋势,与[30, 22, 27, 1]一致。幂律scaling laws可以表示为:
尽管规模律主要研究了测试损失,本文也在token错误率上观察到类似的幂律趋势:
这些结果验证了VAR的强大可扩展性,通过扩大VAR transformer的规模可以持续提高模型的测试性能。
以最优训练计算量 为尺度的scaling laws。 接着,本文研究了在增加训练计算量 时,VAR transformer 的scaling行为。对于这 12 个模型中的每一个,追踪了测试损失 和token误差率 随着训练计算量 的变化情况,训练计算量以 PFlops(每秒 浮点运算)为单位报告。结果绘制在图 6 中。在这里,绘制了 和 的帕累托前沿,以突出达到一定损失或误差值所需的最优训练计算量 。
对于作为 函数的 和 Err 的拟合幂律为scaling laws:
这些关系(13、14)在 的 6 个数量级范围内保持一致,本文的发现与[30, 22]中的结果一致:在有足够数据的情况下,更大的 VAR transformer 更具计算效率,因为它们可以用更少的计算达到相同的性能水平。
可视化。 为了更好地了解当VAR模型扩展时它们是如何学习的,在图7中比较了来自4种不同尺寸的VAR模型(深度为6、16、26、30)和3个不同训练阶段(总训练token的20%、60%、100%)生成的一些256×256样本。为了保持内容一致,使用了相同的随机种子和teacher-forced初始token。观察到的视觉保真度和完整性的改进与scaling laws一致,因为更大的transformer被认为能够学习更复杂、更精细的图像分布。
zero-shot任务泛化
图像修复和抠图。 对VAR-d30进行了测试。对于图像修复和抠图,使用真实图像中mask之外的真实token强制网络进行训练,使网络只生成mask内的token。没有向网络注入类别标签信息。结果见图8。在不修改网络架构或调整参数的情况下,VAR在这些下游任务上取得了不错的结果,证实了VAR的泛化能力。
类别条件图像编辑。 本文也在类别条件图像编辑任务上对VAR进行了测试,这与修复图像的情况类似。模型被强制只在边界框内生成token,条件是某个类别标签。图8显示,模型可以生成与周围环境融合良好的内容,再次验证了VAR的通用性。
消融研究
在这项研究中,旨在验证本文提出的VAR框架的有效性和效率。结果报告在表3中。
VAR的有效性和效率。 从由[11]实施的基准vanilla AR transformer开始,本文将其方法替换为VAR,并保持其他设置不变以获得第2行。VAR的FID要好得多(18.65比5.22),而推理挂钟成本仅为AR模型的0.013倍,这显示了视觉AR模型在性能和效率上的飞跃。
各组件分离实验。 本文进一步测试了VAR中的一些关键组件。通过将标准层归一化(LN)替换为自适应层归一化(AdaLN),VAR开始产生比基准更好的FID。通过使用类似于基准的top-k抽样,VAR的FID进一步提高。通过使用比例为2.0的无分类器指导(CFG),达到了3.60的FID,比基准低了15.05,其推断速度仍然快45倍。由于观察到的有效性,将最终的VAR模型配备了AdaLN、top-k抽样和无分类器指导。最后,将VAR大小扩展到2.0B,并实现了1.80的FID。这比基准FID高出16.85。
未来工作
在这项工作中,主要关注学习范式的设计,并保持VQVAE架构和训练与基准[19]保持不变,以更好地证明VAR框架的有效性。本文期望推进VQVAE分词器作为增强自回归生成模型的另一种有前途的方式,这与本文的工作无关。相信在这些最新工作中通过先进的tokenizer或抽样技术迭代VAR可以进一步提高VAR的性能或速度。
文本提示生成 是研究的一个持续方向。考虑到本文模型在基本上与现代LLMs类似,它可以很容易地与它们集成,通过编码器-解码器或上下文方式执行文本到图像的生成。这是作者目前重点探索的方向。
结论
本文引入了一种名为Visual AutoRegressive modeling(VAR)的新视觉生成框架,该框架在理论上解决了标准图像自回归(AR)模型中存在的一些问题,并使基于语言模型的AR模型首次在图像质量、多样性、数据效率和推理速度方面超越了强大的扩散模型。将VAR扩展到20亿参数后,观察到测试性能与模型参数或训练计算之间存在明显的幂律关系,皮尔逊系数接近-0.998,表明该框架对性能预测具有强大的鲁棒性。这些scaling laws以及zero-shot任务泛化的可能性,作为LLM的标志,在VAR transformer模型中已初步验证。希望本发现和开放源代码能够促进自然语言处理领域取得的巨大成功更无缝地整合到计算机视觉中,最终推动强大的多模态智能的发展。
本文转自 AI生成未来 ,作者:Keyu Tian等