鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Emu3: 统一多模态输入与生成

发布于 2024-11-5 13:18

1645浏览

0收藏

BAAI刚刚开源了Emu3多模态大模型，仅使用单个transformer，使用下一个token预测的方法从0进行训练！通过将图像、文本和视频tokenize到一个统一的离散的空间中，直接通过预测下一个token实现文本、图像和视频生成。

Homepage: https://emu.baai.ac.cn/

Github: https://github.com/baaivision/Emu3

Model: https://huggingface.co/BAAI/Emu3-Gen

Emu3: 统一多模态输入与生成-AI.x社区

Emu3

Emu3 在生成和感知任务中超越了多个任务的专用模型，表现优于主流开源模型如 SDXL、LLaVA-1.6 和 OpenSora-1.2，同时不需要基于Diffison或组合多种不同架构。

Emu3: 统一多模态输入与生成-AI.x社区

Emu3 能够根据文本输入生成高质量的图像，通过简单地预测下一个视觉标记来实现。该模型自然支持灵活的分辨率和风格。

Emu3 展现出强大的视觉语言理解能力，能够感知物理世界并提供连贯的文本响应。值得注意的是，这种能力是在不依赖 CLIP 和预训练 LLM 的情况下实现的。

Emu3 通过预测视频序列中的下一个token来因果生成视频，与 Sora 的视频扩散模型不同。在上下文中有视频的情况下，Emu3 还能自然延伸视频并预测接下来会发生什么。

方法

Emu3 采用混合语言、图像和视频数据从零开始进行训练。语言数据来自 Aquila 的高质量中英文语料库。图像数据经过精心筛选，确保分辨率和美学质量，使用 LAION-AI 的美学预测工具过滤，并结合来自 DenseFusion 的补充数据。视频数据涵盖多种类别，经过分段、文本检测和运动评估，以确保视频质量。最后利用 GPT-4V 为图像和视频生成文本标注。

模型采用 SBER-MoVQGAN 训练视觉编码器，实现高效的视频和图像编码。预训练和后训练过程中，Emu3 集成文本和视觉信息，通过下一标记预测任务优化生成质量，并运用直接偏好优化（DPO）提升模型与人类偏好的对齐。最终，模型通过图像-文本训练和指令调优增强视觉语言理解能力。

能力

视频生成

Emu3: 统一多模态输入与生成-AI.x社区

未来帧预测

Emu3: 统一多模态输入与生成-AI.x社区

多模态对话

Emu3: 统一多模态输入与生成-AI.x社区

Emu3: 统一多模态输入与生成-AI.x社区

本文转载自公众号思源数据科学作者：思源Source

原文链接：https://mp.weixin.qq.com/s/J6MTvki9YjXU5aqcrfi8JA

标签

赞

收藏

回复

举报

回复

相关推荐

TASK-ME-ANYTHING：一个多模态benchmark生成引擎

sbf_2000 • 2588浏览 • 0回复
Lumina-T2X: 一款集成图像、视频、音频和3D生成的多模态扩散模型

sword_hero • 2448浏览 • 0回复
字节跳动发布统一多模态大模型 Show-o!

AI论文解读 • 3552浏览 • 0回复
多模态与伪多模态大模型

AI探索时代 • 1965浏览 • 0回复
从OmniGen的数据、模型设计与训练策略中深度了解多模态统一生成模型

shizhi02 • 4390浏览 • 0回复
统一多模态大模型！PUMA:多粒度策略笑傲生成、编辑、修复、着色、条件生成和理解!

angel • 2734浏览 • 0回复
Janus 统一多模态理解和生成

kede96 • 2112浏览 • 0回复
Emu3：开启多模态人工智能新纪元 —— 视频、图像、文本三合一模型

穿越时空111 • 1960浏览 • 0回复
自回归和Rectified Flow完美融合统一多模态理解和生成！DeepSeek&北大等开源JanusFlow

angel • 2044浏览 • 0回复
文档截图嵌入统一多模态检索方法原理

大模型自然语言处理 • 1674浏览 • 0回复
15M数据实现颠覆性统一多模态大模型！华为诺亚提出ILLUME

angel • 2448浏览 • 0回复
微软研究院推出的MarS：生成基础模型时代的统一金融市场模拟引擎

Halo咯咯 • 3370浏览 • 0回复
PartGen：基于多视图扩散模型的多模态部件级3D生成和重建！

angel • 1697浏览 • 0回复
Meta HSTU：统一的生成式推荐

amei2000go • 4599浏览 • 0回复
Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

大模型自然语言处理 • 1505浏览 • 0回复
多模态理解和生成：多模态理解与生成统一奖励模型；将奖励模型多模态情绪识别上

AI研究前瞻 • 1360浏览 • 0回复
多模态生成式人工智能（Generative AI）：现状、应用与未来！

Halo咯咯 • 1720浏览 • 0回复
浙大&上交等发布统一多模态视频生成框架OmniCam

angel • 776浏览 • 0回复
单模型统一多图个性化生成！字节重磅开源UNO, FLUX版训练、推理、权重全开源！

angel • 991浏览 • 0回复

LV.1

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

9

帖子

66

声望

0

粉丝

关注

最近发布

Jina CLIP v2：为多模态RAG设计的向量模型 2024-11-27 14:50:27发布
解密o1推理过程！DeepSeek-R1-Lite预览版上线 2024-11-27 14:48:58发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇：大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响

下一篇： YOLO11问世！重新定义AI的可能性！

社区精华内容

目录

Emu3
方法
能力
视频生成
未来帧预测
多模态对话

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载