清华、北大与微软推出Glyph-ByT5-v2:渲染高视觉美感文本,海报惊艳,媲美DALL-E3!

发布于 2024-6-20 10:56
浏览
0收藏

微软亚洲研究院、清华大学、北京大学、利物浦大学联合推出功能强大的定制多语言文本编码器Glyph-ByT5-v2和功能强大的美观图形生成模型Glyph-SDXL-v2,它们可以支持 10 种不同语言的准确拼写。考虑到最新的DALLE-3 和Ideogram仍然难以完成多语言视觉文本渲染任务,该工作是一项重大进步。

清华、北大与微软推出Glyph-ByT5-v2:渲染高视觉美感文本,海报惊艳,媲美DALL-E3!-AI.x社区


Glyph-ByT5-v2+Glyph-SDXL-v2效果展示


Glyph-ByT5-v2+Glyph-SDXL-v2方法进行多语言视觉文本渲染的结果。分别在第1行、第2行、第3行、第4行和第5行展示了法语、西班牙语、中文、日语和韩语的视觉文本结果。

清华、北大与微软推出Glyph-ByT5-v2:渲染高视觉美感文本,海报惊艳,媲美DALL-E3!-AI.x社区

竞品:DALL·E3和Ideogram 1.0生成的多语言结果的可视化展示,效果不佳

清华、北大与微软推出Glyph-ByT5-v2:渲染高视觉美感文本,海报惊艳,媲美DALL-E3!-AI.x社区

应用步骤感知偏好优化(SPO)后训练的效果。按顺序展示的图像由以下几行生成:第一行是Glyph-SDXL生成的图像,第二行是Glyph-SDXL Albedo生成的图像,最后一行是Glyph-SDXL Albedo加上SPO生成的图像。

清华、北大与微软推出Glyph-ByT5-v2:渲染高视觉美感文本,海报惊艳,媲美DALL-E3!-AI.x社区

Glyph-ByT5-v2+Glyph-SDXL-v2如何使用:

  • 页面布局设计

清华、北大与微软推出Glyph-ByT5-v2:渲染高视觉美感文本,海报惊艳,媲美DALL-E3!-AI.x社区

  • ​每一块布局box的Prompt、Color、Font填充

清华、北大与微软推出Glyph-ByT5-v2:渲染高视觉美感文本,海报惊艳,媲美DALL-E3!-AI.x社区

Glyph-ByT5-v2+Glyph-SDXL-v2 demo体验:

​https://huggingface.co/spaces/GlyphByT5/Glyph-SDXL-v2​

https://glyph-byt5-v2.github.io
https://arxiv.org/abs/2406.10208
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Render

本文转载自PaperAgent

收藏
回复
举报
回复
相关推荐