Lumina-T2X: 一款集成图像、视频、音频和3D生成的多模态扩散模型
近年来,随着扩散模型在生成任务中的广泛应用,它们已经成为了生成式人工智能领域的重要组成部分。从Stable Diffusion到Sora,这些模型在生成真实图像和视频方面取得了显著成功,标志着从经典U-Net架构向基于Transformer的扩散主干架构的转变。最新的进展是Lumina-T2X系列模型,它通过基于流的大型扩散Transformer(Flag-DiT),实现了图像、视频、音频和3D对象的生成。
一、背景与挑战
虽然诸如Sora和Stable Diffusion这样的模型已经证明了它们在生成高质量图像和视频方面的潜力,但它们通常专注于单一模态的任务,且缺乏详细的实现说明和预训练模型,这限制了它们在社区中的广泛使用。此外,这些模型往往缺乏跨模态的适应性,难以处理多种模态的数据。
二、Lumina-T2X与Flag-DiT
为了解决上述问题,上海AI Lab、香港中文大学和英伟达的研究人员联合推出了Lumina-T2X系列模型,其中包括一个拥有70亿参数的大型扩散Transformer——Flag-DiT,以及一个包含130亿参数的多模态大语言模型SPHINX。
Flag-DiT架构
Flag-DiT基于Diffusion Transformer(DiT)进行了改进,具有出色的稳定性、灵活性和可扩展性。它通过替换LayerNorm为RMSNorm和引入键查询归一化(KQ-Norm),提高了训练的稳定性。此外,Flag-DiT还采用了相对位置编码(RoPE)以支持任意分辨率的图像生成。
Lumina-T2X的整体流程
Lumina-T2X在训练过程中主要由四个组件组成:不同模态的逐帧编码、多种文本编码器进行文本编码、输入和目标构建,以及网络架构和损失函数的定义。这些组件协同工作,确保模型能够有效地处理和生成不同模态的数据。
三、模型能力展示
Lumina-T2X系列模型能够生成高质量的图像、视频、3D对象和语音,实现了真正的“大一统”。例如,Lumina-T2I模型不仅可以生成高质量的图像,还支持分辨率外推、高分辨率编辑、构图生成等功能。
Lumina-T2I的高级应用
Lumina-T2I支持多种高级功能,包括:
- 分辨率外推:能够生成域外分辨率的图像,最高可达2K分辨率。
- 风格一致性生成:能够保持生成图像的风格一致性。
- 构图生成:能够根据文本信息生成复杂的图像布局。
- 高分辨率编辑:能够在高分辨率图像上进行精确编辑。
实验结果
在ImageNet上的实验显示,Flag-DiT在不使用无分类指导的情况下,FID分数显著降低,证明了增加模型参数可以显著提高样本质量。此外,Flag-DiT的训练效率也得到了提升,每秒可处理更多图像。
四、结论
Lumina-T2X系列模型及其核心组成部分Flag-DiT代表了扩散模型领域的一项重要进展。通过集成图像、视频、音频和3D对象的生成能力,这些模型为研究人员和开发者提供了一个强大的工具箱,用于创建跨模态的生成式应用。
本文转载自 跨模态 AGI,作者: AGI