FlexTok-一种图像编码新方式原创

发布于 2025-3-3 09:37

浏览

0收藏

本文介绍一种图像编码的方法。

图像标记化推动了自回归图像生成发展，但传统 2D 网格标记和现有 1D 标记方法存在不足，如无法适应图像内在复杂性。FlexTok 创新之处在于可将 2D 图像投影为可变长度、有序的 1D 标记序列，图像标记化通过提供一种比原始像素更高效、更易处理的压缩离散表示，极大地推动了自回归图像生成的发展。

传统方法多采用二维网格标记化，但像TiTok这样的最新研究表明，一维标记化能够通过消除网格冗余来实现高质量的图像生成。

感兴趣的小伙伴可以阅读原文：https://arxiv.org/pdf/2502.13967

模型介绍

FlexTok-一种图像编码新方式-AI.x社区

上图展示了 FlexTok 的整体架构和工作流程，分为两个主要阶段：

阶段 1：FlexTok 训练：

重采样与量化：FlexTok 使用带有寄存器的视觉 Transformer（ViT）将 2D 的变分自编码器（VAE）潜在特征重采样为 1D 的离散标记序列。之后，使用有限标量量化FSQ对这些序列进行量化，得到瓶颈层表示。
整流流模型解码与重建：量化后的瓶颈层表示被用于为整流流模型提供条件，该模型负责解码并重建原始图像。
学习有序可变长度标记序列：通过对寄存器标记应用嵌套随机失活，FlexTok 学习到有序的、可变长度的标记序列。这种方式使得模型能够以一种从粗到细的方式对图像进行编码，早期的标记捕获图像的高级语义和几何信息，而后续添加的标记则逐步补充更精细的细节。

阶段 2：自回归（AR）训练

训练 AR 模型：训练类别条件和文本条件的自回归 Transformer 模型，以从粗到细的方式预测 1D 标记序列。
生成图像细节递进：随着预测的标记数量增加，生成的图像会变得更加具体。模型首先编码高级概念，例如图像中是否有汽车；然后逐渐添加更精细的细节，如汽车的形状、品牌和颜色等。通过这种方式，FlexTok 能够根据不同的条件和需求，生成具有不同细节程度的图像，展示了其在图像生成任务中的灵活性和有效性。

实验效果

FlexTok将图像转化为有序的标记序列。通过训练基于类别和文本条件的模型，FlexTok标记序列扮演了“视觉词汇表”的角色，使自回归模型能够以递增的特异性描述图像内容。与传统自回归模型在固定光栅扫描顺序下生成图像不同，FlexTok方法能够逐步细化图像细节。简单的条件，例如ImageNet类别标签，可能仅需16个标记即可满足；而更复杂的条件，如开放式文本提示，则可能需要多达256个标记才能达到最佳效果。

FlexTok-一种图像编码新方式-AI.x社区

如上图所示，不同词元数量的图像生成示例。使用类别条件（前3行）和文本条件（后3行）生成的图像表明，基于FlexTok的模型在仅使用单个词元的情况下也能生成高质量图像，并且所有这些都在单个模型内实现。随着生成的词元增多，条件对齐效果增强。例如，对于提示语“一只柯基犬的头部被描绘成星云爆炸的样子”，前两个词元捕捉到了狗的艺术描绘这一高级概念，而添加更多词元则会增加更多细节，如狗的品种和星云背景。

文转载自公众号瓦力算法学研所，作者：喜欢瓦力的卷卷

原文链接：https://mp.weixin.qq.com/s/fp_FEuISXmHPCa0fhEGJDg

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

FlexTok

图像编码

计算机视觉

已于2025-3-3 09:37:53修改