超越Sora!全球首个带背景音乐,文生1080超高清视频模型
全球社交巨头Meta发布最新大模型Movie Gen,正式进军文生视频领域。
Movie Gen共有300亿参数,能以每秒16帧直接生成16秒的1080P超高清视频,还提供精准的视频剪辑、个性化功、不同宽高比适配等多元化功能。
最大技术亮点是,Movie Gen能直接生成带精准配乐的视频,目前Sora、Runway、Luma等一线产品都无法提供该功能。
有网友对Movie Gen的全面化功能相当震惊,表示,Meta比OpenAI更高的发布了Sora。
基本上都是一片Amazing,足以看出Movie Gen的超强性能。
Sora掀起了文生视频风口,但是它自己却莫名消失了~
目前,Meta还没有公布开源该模型,但已经有人迫不及待了。
这是目前最强的文生视频模型,我们很快能用它制作电影了。
Movie Gen功能简单介绍
文生视频是Movie Gen的核心模块,是基于Transformer架构开发而成,专门优化了文本到图像和文本到视频的生成。Movie Gen能够生成长达16秒、每秒16帧的1080P超高清视频,支持73K token上下文。
通过理解文本提示,结合预训练时学习到的视觉知识,生成与文本描述相匹配的视频内容。这一模块的技术创新在于其能够推理对象运动、主体-对象交互和相机运动,从而生成各种概念的合理动作。
在训练过程中,Meta采用了大规模的互联网图像、视频和音频数据,通过复杂的数据策划和过滤流程,确保了模型训练数据的多样性和质量。
此外,为了提高生成视频的质量和一致性,Meta还引入了监督式微调,使用人工策划的高质量视频数据对模型进行进一步的训练。
个性化视频生成是在基础视频模型上进行了扩展,支持生成包含特定人物身份的视频内容。例如,输入一个人的图像和文本提示,模型能够生成包含该人物并具有丰富细节的视频。
Meta使用了一种全新的训练策略,通过在模型训练中加入人脸图像和文本提示的配对数据,使模型学会如何将特定的人物身份信息融入到视频生成过程中。
精确视频编辑是Movie Gen的另外一大技术创新,允许用户通过文本提示对视频进行精确编辑。
Meta通过创新的训练方法,使模型能够理解文本提示中的编辑指令,并将其应用于视频内容的修改中。包括添加、移除或替换视频中的元素,以及进行背景或风格等全局性的修改。
能生成带背景音乐的视频,流匹配和DiT是关键技术。流匹配是一种创新的生成式建模方法,通过构建一个最优传输路径来指导生成过程,从而确保生成的内容既连贯又富有创意。与传统的扩散模型相比,流匹配不仅提高了训练效率,还增强了推理阶段的表现力。
DiT一种经过调整的变压器架构,能够更好地处理音频数据。通过对归一化层输出进行缩放和偏移,并对自注意力及前馈网络层输出进行缩放,实现了对音频信号更精细的控制。同时,通过一个多层感知机来预测调制参数,进一步优化了模型性能。
为了适配不同的设备,针对视频中的位置信息编码问题,Movie Gen使用了一种因子化的可学习位置嵌入方式。这种方法可以灵活地适应不同尺寸、宽高比以及视频长度的输入,避免了传统固定长度位置编码带来的限制。
Movie Gen通过将空间坐标以及时间坐标转化为独立的嵌入向量,再将它们相加得到最终的位置表示,从而有效减少了因位置编码不当导致的画面扭曲或变形现象,尤其是在时间维度上表现尤为明显。
为了降低性能消耗,Movie Gen引入了多维度并行化策略,包括数据并行、张量并行、序列并行以及上下文并行。这种三维并行化设计允许模型在参数数量、输入token数和数据集大小三个轴向上进行扩展,同时也能横向扩展至更多的GPU设备上。
特别是在处理高分辨率视频时,由于自注意力机制本身的计算复杂度较高,因此高效的并行化策略对于减少所需的计算资源至关重要。
论文地址:https://ai.meta.com/static-resource/movie-gen-research-paper
本文转自 AIGC开放社区 ,作者:AIGC开放社区