鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍精华

轻薄滴假象

发布于 2024-6-24 08:37

浏览

0收藏

在生成式模型的迅速发展中，Image Tokenization 扮演着一个很重要的角色，例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间（latent space），使得生成高分辨率图像更有效率。

然而，现有的Tokenizer通常会将输入图像映射为隐空间的一个降采样后的2D矩阵，这一设计隐式的限制了token与图像之间的映射关系，导致其很难有效的利用图像中的冗余信息（比如相邻的区域经常会有类似的特征）来获得一个更加有效的图像编码。

为了解决这一问题，字节跳动豆包大模型团队和慕尼黑工业大学提出了全新的1D图像Tokenizer：TiTok，这一Tokenizer打破了2D Tokenizer的设计局限，可以将整个图片压缩至更为紧凑的Token序列。

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍-AI.x社区

论文链接：https://arxiv.org/abs/2406.07550
项目链接：https://yucornetto.github.io/projects/titok.html
代码链接：https://github.com/bytedance/1d-tokenizer

对于256 x 256分辨率的图片，TiTok最少仅需32个Token就可以表达，比通常2D Tokenizer的256或1024个Token显著减少。对于512 x 512分辨率的图片，TiTok最少仅需64个Token，64倍小于Stable Diffusion的VAE Tokenizer。此外，在ImageNet图像生成这一任务上，使用TiTok作为Tokenizer的生成器在生成质量和生成速度上都有显著提高。

在256分辨率，TiTok获得了1.97的FID，显著超过使用同样生成器的MaskGIT 4.21。在512分辨率TiTok可以获得2.74的FID，不仅超过了DiT（3.04），并且相比DiT在图像生成上加速了惊人的410倍！TiTok的最好变种取得了2.13的FID，显著超过DiT的同时仍旧有着74倍的加速。

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍-AI.x社区

TiTok仅用32个Token就可以完成高质量的图像重建与生成

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍-AI.x社区

图像所需Token的显著减少带来了明显更快的生成速度，但是同时维持了高质量的图像生成。

模型结构

TiTok的结构非常简单，编码器和解码器部分各自是一个ViT，在编码过程中，一组latent tokens会拼接在image patches后，在过完编码器后，仅保留latent tokens并进行quantization的过程。获得的quantized latent tokens将会与一组mask tokens拼接在一起，一并送入解码器，从mask token序列中重建出图像。

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍-AI.x社区

1D Tokenization 性质研究

研究者进行了一系列实验研究关于不同数量的用于表示图像的token，不同的tokenizer大小，重建表现，生成表现，linear probing准确率，以及训练和推理速度的比较。在这一过程中，研究者发现（1）仅需32个Token便能取得很好的重建与生成效果（2）通过增大Tokenizer的模型大小，研究者可以使用更少的Token来表示图片（3）当图片使用较少的Token来表示时，Tokenizer会学到更强的语义信息（4）使用更少的Token来表示图片时，训练和推理速度都有了显著的提升。

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍-AI.x社区

此外，视频中展示了使用不同的Tokenizer大小以及Token数目时所重建出的图片，可以看到更大的Tokenizer可以在有限的Token下重建出质量更好的图像。此外，当仅有有限Token时，模型更倾向于保留显著区域有更好的重建效果。

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍-AI.x社区

实验验证

研究者主要在ImageNet-1k的256 x 256分辨率以及512 x 512分辨率上进行了与其他方法的比较。可以看到，尽管TiTok使用有限的Token数目，但是可以和其他使用更多Token的方法取得相当的重建效果（rFID），使用较少的Token数目让TiTok在维持较高的生成图片质量（gFID）的同时有着显著快于其他方法的生成速度。

例如TiTok-L-32获得了2.77的gFID score，同时可以以每秒101.6张图片的速度进行图片生成，这一速度显著快于其他Diffusion Models （169倍快于DiT）或者Transformer Models （339倍快于ViT-VQGAN）.

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍-AI.x社区

TiTok使用较少Token的优势在更高分辨率的图像生成上更加明显，其中TiTok-L-64仅使用64个Token就能完成高质量的512分辨率图像的重建与生成，生成图像的质量不仅高于DiT (2.74 v.s. 3.04)，同时生成速度提高了近410倍。

字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍-AI.x社区

结论

在本文中，研究者专注于一个全新的1D Image Tokenizer，并提出了一种全新的Tokenizer来打破现有2D Tokenizer中的局限，进而更好的利用图像中的冗余信息。TiTok仅需少量的Token（比如32个）来表示图像，同时仍旧能进行高质量的图像重建与生成。在ImageNet的256分辨率和512分辨率生成实验中，TiTok不仅取得了超过Diffusion Models的生成质量，同时有着百倍更快的生成速度。

本文转自机器之心，作者：机器之心

原文链接:https://mp.weixin.qq.com/s/jQwv5MHWPqu1c7YLROBD3A

标签

已于2024-6-24 08:38:11修改

赞

收藏

回复

举报

回复

相关推荐

只需一步！One-Step图像转换来了！亲测效果惊艳！

angel • 4137浏览 • 0回复
图像生成里程碑！VAR:自回归模型首超Diffusion Transformer！（北大&字节）

angel • 1.1w浏览 • 0回复
北大字节开辟图像生成新范式！超越Sora核心组件DiT，不再预测下一个token

Crystalcxt • 2256浏览 • 0回复
「个性化」图像生成时代来了！六大顶尖高校联手发布全新Gen4Gen框架

duhorse • 2740浏览 • 0回复
Meta图像生成器具有种族歧视？

echo_ning • 2297浏览 • 0回复
图像生成模型王牌——Diffusion Transformers系列工作梳理

海因斯DK • 4876浏览 • 0回复
快3倍！Meta 违背经典模型结构，一次预测多个token，路径可行，大模型大幅提速指日可待！

51CTO技术栈 • 2464浏览 • 0回复
next-token被淘汰！Meta实测「多token」训练方法，推理提速3倍，性能大涨10%+

duhorse • 2673浏览 • 0回复
CVPR 2024｜让图像扩散模型生成高质量360度场景，只需要一个语言模型

轻薄滴假象 • 2748浏览 • 0回复
字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

轻薄滴假象 • 2426浏览 • 0回复
耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘

轻薄滴假象 • 3060浏览 • 0回复
MUMU：用文本、图像引导，多模态图像生成模型

Aceryt • 2119浏览 • 0回复
突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！

angel • 2409浏览 • 0回复
OmniTokenizer-视觉tokenizer生成

shizhi02 • 1433浏览 • 0回复
港大&字节发布领先商用级图像视频生成模型Goku有点东西

angel • 1879浏览 • 0回复
4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！

玄姐聊AGI • 5582浏览 • 0回复
何恺明开辟分形图像生成新范式！计算效率提高4000倍，首次实现高分辨率逐像素生成

Crystalcxt • 1274浏览 • 0回复
阿里开源QwQ-32B，性能与Deepseek R1持平。一个拥有320亿参数的全新推理模型

Halo咯咯 • 1884浏览 • 0回复
0.72秒生成3D世界！建模提速15倍！极佳&北大等的WonderTurbo强势登场，可实时交互！

angel • 1085浏览 • 0回复

数字化助推器

LV.4

致力于企业信息化解决方案，数字化转型，AI大模型赋能

觉得TA不错？点个关注精彩不错过

44

帖子

601

声望

0

粉丝

关注

最近发布

DeepSeek一口气开源3个项目，还有梁文锋亲自参与，昨晚API大降价 2025-02-27 12:40:06发布
全球首个AI CUDA工程师来了！将PyTorch原生实现提速10-100倍 2025-02-21 13:20:31发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇： ShareGPT4V作者团队又一力作！百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力

下一篇：耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载