重磅！北大联合字节VAR模型获NeurIPS 2024最佳论文：改写图像生成的未来范式-51CTO.COM

人工智能顶会NeurIPS 2024大会公布了本年度最佳论文奖，今年大会共收到15671篇论文，最终接收率只有25.8%，其中两篇文章获得最佳论文奖

一是由北大与字节跳动团队共同完成的《Visual AutoRegressive Modeling: Scalable Image Generation via Next-Scale Prediction》（VAR）获得（尴尬的是论文一作田柯宇被字节起诉，我们这里就不八卦了，网上有很多瓜，还是专注于解读技术）。这篇论文提出了一种颠覆性的新型图像生成框架，不仅首次让自回归模型超越扩散模型，还开创了“逐尺度预测”的全新范式，为视觉生成领域开辟了全新的方向

另一篇是由新加坡国立大学、 Sea AI Lab 研究者共同完成的《Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators》论文一作为 Zekun Shi

北大与字节的获奖论文推出的模型VAR是首个在视觉领域验证“规模化定律”的模型，个人认为这是中国本土从0到1的生成式人工智能基础研究重大突破

paper：https://openreview.net/pdf?id=gojL67CfS8

从“逐像素”到“逐尺度”

VAR模型最核心的创新在于重新定义了图像生成的过程，将传统的逐像素生成方式彻底颠覆：

1. 多尺度预测的新范式

传统自回归方法采用“逐像素”的方式，即从图像的左上角逐行生成，依赖每个像素的前置依赖。这种方法不仅效率低，还容易丢失图像的全局结构感。而VAR模型则通过引入多尺度VQVAE，将图像分解为从粗到细的多层次token。生成时，VAR从最低分辨率的全局token开始，逐层生成更高分辨率的细节，从而实现了对图像的“逐尺度预测”

实现细节：

• 首先通过多尺度VQVAE将原始图像编码为多层分辨率token

• 在每一层分辨率上，自回归模型并行生成token，并利用上下文信息预测更高分辨率的细节

这种方式不仅保留了图像的空间局部性，还避免了传统方法中将图像展平成一维序列所引入的空间破坏

2. 效率的极大提升

传统自回归模型需要逐像素生成，每个步骤依赖所有前置像素，时间复杂度高达

VAR则通过“逐尺度并行”的方式，将复杂度降低至

这一优化使VAR在推理速度上比扩散模型快20倍，同时接近于GAN的实时生成速度

3. 视觉生成的“Scaling Law”

VAR模型首次在视觉领域系统性地验证了‘规模化定律’，展示了模型参数和训练计算量与性能提升之间的强线性关系。团队通过实验发现，VAR模型的性能随着参数规模的增加呈现出线性提升，与大语言模型的扩展性相似。这种特性不仅使VAR在图像生成中具备更强的性能预测能力，还为更高效的资源分配提供了理论依据

通过实验对VAR模型进行规模化（即增大模型参数和计算量）时的学习效果进行可视化分析，并验证了规模化定律的有效性

首度击败扩散模型

在ImageNet 256×256基准测试中，VAR的表现堪称惊艳：

1. 生成质量

VAR的FID分数达到1.73（分数越低越好），显著超越扩散模型（如DiT-XL/2的2.27）和传统自回归方法（如VQGAN的15.78）

在IS（生成图像多样性）指标上，VAR也达到了350.2的高分

2. 推理速度

VAR比扩散模型快20倍，并且在计算资源消耗上更高效。它仅需10步推理即可生成高质量图像，而扩散模型通常需要250步以上

3. 零样本泛化能力

VAR无需额外训练即可胜任多种任务，包括图像修复（in-painting）、扩展（out-painting）以及条件编辑。这一能力得益于VAR对图像多尺度结构的深度建模，使其在陌生任务中也能展现出惊人的灵活性

从图像到多模态智能

VAR的潜力不仅局限于图像生成，其应用场景和未来发展方向同样令人期待：

1. 文本到图像生成：团队计划将VAR与大型语言模型结合，实现更强大的文本到图像生成能力，例如通过提示生成高质量的插画或艺术作品
2. 视频生成的革命：VAR天然支持视频生成的扩展，通过将“逐尺度预测”应用于时间维度，VAR有望解决传统视频生成方法在时间一致性上的难题，为影视制作和虚拟现实领域注入新活力
3. 产业应用：在游戏开发、电影特效、教育可视化等领域，VAR模型将为用户提供更快、更高效的视觉生成解决方案

结语：

VAR模型的成功不仅是技术上的突破，更是一种范式转变。它让我们看到，大语言模型的成功经验可以移植到视觉领域，从而激发出更强大的多模态智能。随着更多模型代码和数据的开源，VAR有望成为视觉生成领域的开山之作，推动下一代AI技术的发展

VAR项目地址：

https://github.com/FoundationVision/VAR