在图像生成领域,自回归可以打败扩散模型吗?
图像生成领域,有这么几种方法,Flow-Based、GAN-Based、VAE+Pixel-CNN系列、扩散模型自回归。更早期的是基于自编码器的图像生成,各种Auto-Encoder模型,以及影响很大的变分自编码器d-VAE。后面又有Flow-Based,不过似乎Flow-Based引起的注意不是那么大。然后是名噪一时的GAN。2020年之后,扩散模型逐渐火热,一直到现在慢慢扩展到视频生成、3D生成、目标检测和语义分割等领域。
与此同时,自回归模型作为语言模型里面的杠把子,也引起了大家的关注,早期的Pixel-CNN也算是自回归图像生成的一种,然后过渡到自编码器+自回归,比如VQ-VAE+Pixel-CNN,然后是CVPR 2021 Oral工作VQ-GAN横空出世,VQ-VAE结合自回归Transformer作为先验替代Pixel_CNN。不过同期扩散模型的发展似乎更为火热一些,提出VQ-GAN的团队也在CVPR 2022提出了日后红极一时的Stable Diffusion系列,可以看作是结合VQ-GAN和扩散模型的工作(当然自回归Transformer需要隐藏一下)。
更早之前,OpenAI提出了Diffusion Models Beat GANs on Image Synthesis(https://arxiv.org/abs/2105.05233),指出在图像生成领域扩散模型可以打败GAN,之后图像生成领域的流行范式变成了扩散模型(这样说不太准确,其实更早之前,GAN的研究热度也已经慢慢降下来了,DDPM和DDIM之后扩散模型的研究也已经慢慢火热了)。两三年时间,图像生成的扩散模型的研究也逐渐丰满,结合LLM的工作、快速采样生成图片的工作、结合ViT的工作(Diffusion Image Transformer,DiT)也慢慢浮出水面,大家的研究热点也慢慢的走向扩散模型在视频生成领域的应用,虽然可以借鉴之前图像生成的一些经验,遇到的挑战也是更大的。
这个时候其实也是需要思考图像生成中,自回归模型的地位,毕竟之前也有很多优秀的工作,比如OpenAI的iGPT,Meta的MasktGIT。前面也提到过字节也提出了预测下一个level 图像token的自回归图像生成模型 VAR,今天要介绍的也是字节和港大提出的一个工作,其名字也是和Diffusion Models Beat GANs on Image Synthesis有异曲同工之妙,Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation。
https://arxiv.org/pdf/2406.06525https://github.com/FoundationVision/LlamaGen
文中提到的自回归图像生成模型LlamaGen,模型结构和VQ-GAN是类似的,不过把学习先验的自回归Transformer换成了参数量更大的Llama模型,实现细节也借鉴了VQ-GAN和ViT-VQ-GAN的做法,比如Codebook用更大的Vocabulary,在特征向量量化之前对特征向量进行降维和 L2-norm,损失函数也加入了perceptual loss和PatchGan的对抗学习的损失。
Llama的结构中,基于RMSNorm实现pre-normalization,SwiGLU激活函数和旋转位置编码,也没有使用AdaLN。
文中也提到了一个现象,就是把Codebook的Vocabulary变大之后,想过会更好,当然embedding的usage会下降。但是把Vocabulary的embedding向量的维度降低,也会让embedding的usage提高。
本文转自AI生成未来,作者:vasgaowei