回复
清华、北大与微软推出Glyph-ByT5-v2:渲染高视觉美感文本,海报惊艳,媲美DALL-E3!
微软亚洲研究院、清华大学、北京大学、利物浦大学联合推出功能强大的定制多语言文本编码器Glyph-ByT5-v2和功能强大的美观图形生成模型Glyph-SDXL-v2,它们可以支持 10 种不同语言的准确拼写。考虑到最新的DALLE-3 和Ideogram仍然难以完成多语言视觉文本渲染任务,该工作是一项重大进步。
Glyph-ByT5-v2+Glyph-SDXL-v2效果展示
Glyph-ByT5-v2+Glyph-SDXL-v2方法进行多语言视觉文本渲染的结果。分别在第1行、第2行、第3行、第4行和第5行展示了法语、西班牙语、中文、日语和韩语的视觉文本结果。
竞品:DALL·E3和Ideogram 1.0生成的多语言结果的可视化展示,效果不佳
应用步骤感知偏好优化(SPO)后训练的效果。按顺序展示的图像由以下几行生成:第一行是Glyph-SDXL生成的图像,第二行是Glyph-SDXL Albedo生成的图像,最后一行是Glyph-SDXL Albedo加上SPO生成的图像。
Glyph-ByT5-v2+Glyph-SDXL-v2如何使用:
- 页面布局设计
- 每一块布局box的Prompt、Color、Font填充
Glyph-ByT5-v2+Glyph-SDXL-v2 demo体验:
https://huggingface.co/spaces/GlyphByT5/Glyph-SDXL-v2
https://glyph-byt5-v2.github.io
https://arxiv.org/abs/2406.10208
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Render
本文转载自PaperAgent
赞
收藏
回复
相关推荐