鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Lumina-T2X: 一款集成图像、视频、音频和3D生成的多模态扩散模型

发布于 2024-8-28 14:57

浏览

0收藏

近年来，随着扩散模型在生成任务中的广泛应用，它们已经成为了生成式人工智能领域的重要组成部分。从Stable Diffusion到Sora，这些模型在生成真实图像和视频方面取得了显著成功，标志着从经典U-Net架构向基于Transformer的扩散主干架构的转变。最新的进展是Lumina-T2X系列模型，它通过基于流的大型扩散Transformer（Flag-DiT），实现了图像、视频、音频和3D对象的生成。

一、背景与挑战

虽然诸如Sora和Stable Diffusion这样的模型已经证明了它们在生成高质量图像和视频方面的潜力，但它们通常专注于单一模态的任务，且缺乏详细的实现说明和预训练模型，这限制了它们在社区中的广泛使用。此外，这些模型往往缺乏跨模态的适应性，难以处理多种模态的数据。

二、Lumina-T2X与Flag-DiT

为了解决上述问题，上海AI Lab、香港中文大学和英伟达的研究人员联合推出了Lumina-T2X系列模型，其中包括一个拥有70亿参数的大型扩散Transformer——Flag-DiT，以及一个包含130亿参数的多模态大语言模型SPHINX。

Flag-DiT架构

Flag-DiT基于Diffusion Transformer（DiT）进行了改进，具有出色的稳定性、灵活性和可扩展性。它通过替换LayerNorm为RMSNorm和引入键查询归一化（KQ-Norm），提高了训练的稳定性。此外，Flag-DiT还采用了相对位置编码（RoPE）以支持任意分辨率的图像生成。

Lumina-T2X的整体流程

Lumina-T2X在训练过程中主要由四个组件组成：不同模态的逐帧编码、多种文本编码器进行文本编码、输入和目标构建，以及网络架构和损失函数的定义。这些组件协同工作，确保模型能够有效地处理和生成不同模态的数据。

三、模型能力展示

Lumina-T2X系列模型能够生成高质量的图像、视频、3D对象和语音，实现了真正的“大一统”。例如，Lumina-T2I模型不仅可以生成高质量的图像，还支持分辨率外推、高分辨率编辑、构图生成等功能。

Lumina-T2I的高级应用

Lumina-T2I支持多种高级功能，包括：

分辨率外推：能够生成域外分辨率的图像，最高可达2K分辨率。
风格一致性生成：能够保持生成图像的风格一致性。
构图生成：能够根据文本信息生成复杂的图像布局。
高分辨率编辑：能够在高分辨率图像上进行精确编辑。

实验结果

在ImageNet上的实验显示，Flag-DiT在不使用无分类指导的情况下，FID分数显著降低，证明了增加模型参数可以显著提高样本质量。此外，Flag-DiT的训练效率也得到了提升，每秒可处理更多图像。

四、结论

Lumina-T2X系列模型及其核心组成部分Flag-DiT代表了扩散模型领域的一项重要进展。通过集成图像、视频、音频和3D对象的生成能力，这些模型为研究人员和开发者提供了一个强大的工具箱，用于创建跨模态的生成式应用。

本文转载自跨模态 AGI，作者： AGI

标签

已于2024-8-28 14:58:19修改

赞

收藏

回复

举报

回复

相关推荐

文本直接生成多视角3D图像，Meta推出创新模型

Aceryt • 2723浏览 • 0回复
DiT架构大一统：一个框架集成图像、视频、音频和3D生成，可编辑、能试玩

轻薄滴假象 • 3089浏览 • 0回复
3D生成竞技场来了！比拼360°环绕视频，最强模型由你pick

Crystalcxt • 2938浏览 • 0回复
2D头像生成3D虚拟人开视频会，谷歌新作让人难绷

轻薄滴假象 • 2487浏览 • 0回复
3D版"裁缝"开源来袭！Tailor3D:自定义3D编辑和资产生成（港大&上海AI-Lab&港中文）

angel • 2810浏览 • 0回复
开源视频模型SV4D，一键创建8角度动态3D视频

Aceryt • 3235浏览 • 0回复
麻省理工创新模型：用2D视频扩散，生成 3D 视频

Aceryt • 3151浏览 • 0回复
一文详解3D内容生成算法（朴素/2D先验/混合型）

angel • 4578浏览 • 0回复
ECCV`24 | 新加坡国立&华为提出Vista3D: 实现快速且多视角一致的3D生成

angel • 2432浏览 • 0回复
Fooocus：一款开箱即用的图片生成软件

sword_hero • 3634浏览 • 0回复
DeepSeek AI发布Janus：一款拥有图像生成能力的1.3B多模态模型

Halo咯咯 • 6318浏览 • 0回复
开发一款大模型需要经过哪些步骤？开发一款大模型的完整流程

AI探索时代 • 4254浏览 • 0回复
生成任意3D和4D场景！GenXD：通用3D-4D联合生成框架 | 新加坡国立&微软

angel • 2589浏览 • 0回复
PartGen：基于多视图扩散模型的多模态部件级3D生成和重建！

angel • 2453浏览 • 0回复
Google 发布了用于视频生成的最先进的“Veo 2”和用于图像创建的“Improved Imagen 3”

Halo咯咯 • 2438浏览 • 0回复
一张图生成舞蹈视频！字节等发布黑科技X-Dancer：零样本音乐驱动，真实感碾压3D方案

angel • 2192浏览 • 0回复
通向AGI的未来之路！首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)

angel • 2475浏览 • 0回复
V2Edit零训练黑科技：指令级视频魔法+3D场景大改，原画质无损秒变爆款

angel • 1497浏览 • 0回复
MedSAM2: 3D医疗图像和视频的全能分割模型、DeepResearcher: 通过真实环境强化学习实现深度研究

sbf_2000 • 1483浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

OpenCV 5：迈向计算机视觉新纪元的最新进展 2025-01-02 14:01:37发布
生成式人工智能：2024年全面指南 2024-12-24 14:23:23发布

热门推荐

从原理到调参，小白也能读懂的大模型微调LoRA，不懂线性代数也没问题 0回复

Deepseek R1 0528实测：性能直逼顶尖，普通电脑本地运行全攻略 0回复

本命周！MiniMax M1有多猛？网友：仅用40k思考预算就干翻Gemini，实测：真·超DS！ 1回复

AI Agents开源工具栈全解析~ 0回复

效果&成本双突破！快手提出端到端生成式推荐系统OneRec！ 0回复

上一篇： TensorFlow 2.17：深度学习框架的新高度

下一篇： Fooocus：一款开箱即用的图片生成软件

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载