FlexTok-一种图像编码新方式 原创

发布于 2025-3-3 09:37
浏览
0收藏

本文介绍一种图像编码的方法。

图像标记化推动了自回归图像生成发展,但传统 2D 网格标记和现有 1D 标记方法存在不足,如无法适应图像内在复杂性。FlexTok 创新之处在于可将 2D 图像投影为可变长度、有序的 1D 标记序列,图像标记化通过提供一种比原始像素更高效、更易处理的压缩离散表示,极大地推动了自回归图像生成的发展。

传统方法多采用二维网格标记化,但像TiTok这样的最新研究表明,一维标记化能够通过消除网格冗余来实现高质量的图像生成。

感兴趣的小伙伴可以阅读原文:https://arxiv.org/pdf/2502.13967

模型介绍

FlexTok-一种图像编码新方式-AI.x社区

上图展示了 FlexTok 的整体架构和工作流程,分为两个主要阶段:

阶段 1:FlexTok 训练:

  • 重采样与量化:FlexTok 使用带有寄存器的视觉 Transformer(ViT)将 2D 的变分自编码器(VAE)潜在特征重采样为 1D 的离散标记序列。之后,使用有限标量量化FSQ对这些序列进行量化,得到瓶颈层表示。
  • 整流流模型解码与重建:量化后的瓶颈层表示被用于为整流流模型提供条件,该模型负责解码并重建原始图像。
  • 学习有序可变长度标记序列:通过对寄存器标记应用嵌套随机失活,FlexTok 学习到有序的、可变长度的标记序列。这种方式使得模型能够以一种从粗到细的方式对图像进行编码,早期的标记捕获图像的高级语义和几何信息,而后续添加的标记则逐步补充更精细的细节。

阶段 2:自回归(AR)训练

  • 训练 AR 模型:训练类别条件和文本条件的自回归 Transformer 模型,以从粗到细的方式预测 1D 标记序列。
  • 生成图像细节递进:随着预测的标记数量增加,生成的图像会变得更加具体。模型首先编码高级概念,例如图像中是否有汽车;然后逐渐添加更精细的细节,如汽车的形状、品牌和颜色等 。通过这种方式,FlexTok 能够根据不同的条件和需求,生成具有不同细节程度的图像,展示了其在图像生成任务中的灵活性和有效性。

实验效果

FlexTok将图像转化为有序的标记序列。通过训练基于类别和文本条件的模型,FlexTok标记序列扮演了“视觉词汇表”的角色,使自回归模型能够以递增的特异性描述图像内容。与传统自回归模型在固定光栅扫描顺序下生成图像不同,FlexTok方法能够逐步细化图像细节。简单的条件,例如ImageNet类别标签,可能仅需16个标记即可满足;而更复杂的条件,如开放式文本提示,则可能需要多达256个标记才能达到最佳效果。

FlexTok-一种图像编码新方式-AI.x社区

如上图所示,不同词元数量的图像生成示例。使用类别条件(前3行)和文本条件(后3行)生成的图像表明,基于FlexTok的模型在仅使用单个词元的情况下也能生成高质量图像,并且所有这些都在单个模型内实现。随着生成的词元增多,条件对齐效果增强。例如,对于提示语“一只柯基犬的头部被描绘成星云爆炸的样子”,前两个词元捕捉到了狗的艺术描绘这一高级概念,而添加更多词元则会增加更多细节,如狗的品种和星云背景。


文转载自公众号瓦力算法学研所,作者:喜欢瓦力的卷卷

原文链接:https://mp.weixin.qq.com/s/fp_FEuISXmHPCa0fhEGJDg


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-3-3 09:37:53修改
收藏
回复
举报
回复
相关推荐