鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

MUMU：用文本、图像引导，多模态图像生成模型

发布于 2024-8-26 09:52

浏览

0收藏

传统的文生图模型仅使用文本提示有时无法完美还原用户的提示词，例如，生成一个穿着红色披风的超级英雄在城市中飞翔的图像，传统的文本到图像生成模型可能会根据文本描述生成一个大致符合要求的图像，但可能无法准确呈现出用户想要的超级英雄的具体形象或披风的颜色和样式。

为了提升图片的生成准确度，Sutter Hill的研究人员开发了可基于文本和图像引导的多模态图像生成模型MUMU。用户不仅可以使用文本提示，还能使用要生成目标图像的参考图，进一步提升生成准确率。

论文地址：https://arxiv.org/abs/2406.18790

MUMU：用文本、图像引导，多模态图像生成模型-AI.x社区

MUMU 的架构是基于 SDXL 的预训练卷积 UNet，通过替换 SDXL 的辅助CLIP 文本编码器，并将 SDXL 的主要 CLIP 文本编码器替换为视觉语言模型 Idefics2 的隐藏状态来构建。

Idefics2由一个从 SigLIP初始化的视觉变换器用于嵌入图像输入，一个感知器变换器用于将图像嵌入池化到固定的序列长度，以及一个从Mistral 7b 初始化的大型视觉语言模型变换器组成。

MUMU：用文本、图像引导，多模态图像生成模型-AI.x社区

在 MUMU 架构中，研究人员去除了感知器变换器，以使用更多的图像token，这样可以提高图像质量，并且图像质量在每个图像大约 1000 个token时达到饱和。此外，还在 Idefics2 的隐藏状态之上添加了一个小型的非因果 “适配器” 变换器。

为了增强模型的能力，研究团队采用了两种类型的数据：合成数据和真实数据。合成数据由大约300万张使用SDXL生成的图像组成，并且这些图像经过了最低PickScore的筛选。

为了鼓励模型区分内容和风格，每个内容都配对了许多不同的风格。此外，还使用了大语言模型从DiffusionDB中抽取内容和风格，并手动触发产生额外的内容和风格。

MUMU：用文本、图像引导，多模态图像生成模型-AI.x社区

另一方面，考虑到SDXL可能无法生成完美的、高分辨率的真实图像，研究人员还加入了约200万张高质量的真实图像，主要包含人物。这些图像经过筛选，确保它们是安全的、高分辨率的、无水印的，并且包含0或1个人物。随后，这些图像被尽可能地中心裁剪到人物上，并使用Llava 1.6进行标题化处理。

在训练过程中，研究团队在单个 8xH100 GPU 节点上使用 PyTorch FSDP 分两个阶段训练 MUMU。所有图像都用黑色像素填充为正方形分辨率，图像裁剪总是调整大小以满足目标分辨率。

在第一阶段，每个提示最多插入四张图像，每张图像使用 324 个token，并且最多插入三个在输入图像中检测到的对象的裁剪。30% 的时间还会额外插入输入图像的 canny 边缘、深度或草图的图像。

MUMU：用文本、图像引导，多模态图像生成模型-AI.x社区

在第二阶段，每个提示插入一个对应 1296 个token的高分辨率人脸或人物裁剪，以观察更多token是否能改善人脸质量。

为了评估 MUMU 的性能，研究人员进行了一系列测试。与 ChatGPT + DALLE - 3的对比测试表明，MUMU 在保留条件图像的细节方面表现更好。例如，当输入一张现实生活中的人像和一张卡通风格的图像时，模型能成功输出相同人物在卡通风格下的图像。

MUMU：用文本、图像引导，多模态图像生成模型-AI.x社区

输入站立的人物和滑板时，模型能生成人物骑着滑板的画面。MUMU 生成的图像能够更好地保留图像的细节，而 ChatGPT + DALLE - 3则相对较差。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/P3vuRhWrRMEggYes2Ts-Sw

标签

赞

收藏

回复

举报

回复

相关推荐

苹果推出多模态大模型MM1，能解释图像和文本数据

laojean • 1938浏览 • 0回复
文本直接生成多视角3D图像，Meta推出创新模型

Aceryt • 1770浏览 • 0回复
图像生成模型王牌——Diffusion Transformers系列工作梳理

海因斯DK • 4479浏览 • 0回复
将图像自动文本化，图像描述质量更高、更准确了

轻薄滴假象 • 1650浏览 • 0回复
TextCoT：放大增强型多模态富文本图像理解

AIRoobt • 2511浏览 • 0回复
TextCoT：放大增强型多模态富文本图像理解

AIRoobt • 2338浏览 • 0回复
Lumina-T2X: 一款集成图像、视频、音频和3D生成的多模态扩散模型

sword_hero • 2124浏览 • 0回复
Stable Diffusion这样的文本-图像生成模型有记忆吗？

angel • 1586浏览 • 0回复
多模态大语言模型的演变全回顾！（视觉定位、图像生成、编辑、理解）

angel • 2828浏览 • 0回复
UIUC提出InstructG2I：从多模态属性图合成图像，结合文本和图信息生成内容更丰富有趣！

angel • 1717浏览 • 0回复
Emu3：开启多模态人工智能新纪元 —— 视频、图像、文本三合一模型

穿越时空111 • 1676浏览 • 0回复
FGM：刷新流匹配模型单步文本到图像生成纪录！(浙大&卡内基梅隆&北大&西湖大学)

angel • 1893浏览 • 0回复
DeepSeek AI发布Janus：一款拥有图像生成能力的1.3B多模态模型

Halo咯咯 • 4839浏览 • 0回复
五种时频图像一键切换，CVPR 顶会+多模态融合

Tang_Lan • 2052浏览 • 0回复
时序+图像+文本，多模态增强的时序预测模型

海因斯DK • 2251浏览 • 0回复
2025首篇关于多模态大模型在富文本图像理解上的全面研究综述

PaperAgent • 1866浏览 • 0回复
多模态理解和生成：多模态理解与生成统一奖励模型；将奖励模型多模态情绪识别上

AI研究前瞻 • 952浏览 • 0回复
IBM提出多模式图像文本到文本模型SmolDocling，可实现代码 | 公示 | 图表 | 表格 | 标题高效转换！

AIGCStudio • 530浏览 • 0回复
复杂多文本图像生成；多角色对话视频生成，唇形同步，身体动作，情感表达

AI研究前瞻 • 134浏览 • 0回复

LV.2

专注搜索、推荐、广告、大模型和人工智能最新技术

觉得TA不错？点个关注精彩不错过

13

帖子

127

声望

0

粉丝

关注

最近发布

20000颗星！100多个Agent超级工具，开源MCP大合集 4天前发布
微软、清华发布Agent创新方法，解决记忆、检索大难题 4天前发布

热门推荐

20000颗星！100多个Agent超级工具，开源MCP大合集 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

90%的人都中招的低效陷阱！DeepSeek这招五分钟脑图法让你少熬10夜 1回复

算力租赁新趋势揭秘：如何高效利用云计算资源赋能未来 0回复

上一篇：美国律师协会：ChatGPT等生成式AI，能帮助律师提升效率

下一篇：突发！OpenAI展示草莓，很快发布“GPT-5”猎户座！

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载