鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

超越Sora！全球首个带背景音乐，文生1080超高清视频模型

发布于 2024-10-8 10:22

浏览

0收藏

全球社交巨头Meta发布最新大模型Movie Gen，正式进军文生视频领域。

Movie Gen共有300亿参数，能以每秒16帧直接生成16秒的1080P超高清视频，还提供精准的视频剪辑、个性化功、不同宽高比适配等多元化功能。

最大技术亮点是，Movie Gen能直接生成带精准配乐的视频，目前Sora、Runway、Luma等一线产品都无法提供该功能。

超越Sora！全球首个带背景音乐，文生1080超高清视频模型-AI.x社区

有网友对Movie Gen的全面化功能相当震惊，表示，Meta比OpenAI更高的发布了Sora。

超越Sora！全球首个带背景音乐，文生1080超高清视频模型-AI.x社区

基本上都是一片Amazing，足以看出Movie Gen的超强性能。

超越Sora！全球首个带背景音乐，文生1080超高清视频模型-AI.x社区

超越Sora！全球首个带背景音乐，文生1080超高清视频模型-AI.x社区

超越Sora！全球首个带背景音乐，文生1080超高清视频模型-AI.x社区

Sora掀起了文生视频风口，但是它自己却莫名消失了~

超越Sora！全球首个带背景音乐，文生1080超高清视频模型-AI.x社区

目前，Meta还没有公布开源该模型，但已经有人迫不及待了。

超越Sora！全球首个带背景音乐，文生1080超高清视频模型-AI.x社区

这是目前最强的文生视频模型，我们很快能用它制作电影了。

超越Sora！全球首个带背景音乐，文生1080超高清视频模型-AI.x社区

Movie Gen功能简单介绍

文生视频是Movie Gen的核心模块，是基于Transformer架构开发而成，专门优化了文本到图像和文本到视频的生成。Movie Gen能够生成长达16秒、每秒16帧的1080P超高清视频，支持73K token上下文。

通过理解文本提示，结合预训练时学习到的视觉知识，生成与文本描述相匹配的视频内容。这一模块的技术创新在于其能够推理对象运动、主体-对象交互和相机运动，从而生成各种概念的合理动作。

超越Sora！全球首个带背景音乐，文生1080超高清视频模型-AI.x社区

在训练过程中，Meta采用了大规模的互联网图像、视频和音频数据，通过复杂的数据策划和过滤流程，确保了模型训练数据的多样性和质量。

此外，为了提高生成视频的质量和一致性，Meta还引入了监督式微调，使用人工策划的高质量视频数据对模型进行进一步的训练。

个性化视频生成是在基础视频模型上进行了扩展，支持生成包含特定人物身份的视频内容。例如，输入一个人的图像和文本提示，模型能够生成包含该人物并具有丰富细节的视频。

超越Sora！全球首个带背景音乐，文生1080超高清视频模型-AI.x社区

Meta使用了一种全新的训练策略，通过在模型训练中加入人脸图像和文本提示的配对数据，使模型学会如何将特定的人物身份信息融入到视频生成过程中。

精确视频编辑是Movie Gen的另外一大技术创新，允许用户通过文本提示对视频进行精确编辑。

超越Sora！全球首个带背景音乐，文生1080超高清视频模型-AI.x社区

Meta通过创新的训练方法，使模型能够理解文本提示中的编辑指令，并将其应用于视频内容的修改中。包括添加、移除或替换视频中的元素，以及进行背景或风格等全局性的修改。

能生成带背景音乐的视频，流匹配和DiT是关键技术。流匹配是一种创新的生成式建模方法，通过构建一个最优传输路径来指导生成过程，从而确保生成的内容既连贯又富有创意。与传统的扩散模型相比，流匹配不仅提高了训练效率，还增强了推理阶段的表现力。

超越Sora！全球首个带背景音乐，文生1080超高清视频模型-AI.x社区

DiT一种经过调整的变压器架构，能够更好地处理音频数据。通过对归一化层输出进行缩放和偏移，并对自注意力及前馈网络层输出进行缩放，实现了对音频信号更精细的控制。同时，通过一个多层感知机来预测调制参数，进一步优化了模型性能。

超越Sora！全球首个带背景音乐，文生1080超高清视频模型-AI.x社区

为了适配不同的设备，针对视频中的位置信息编码问题，Movie Gen使用了一种因子化的可学习位置嵌入方式。这种方法可以灵活地适应不同尺寸、宽高比以及视频长度的输入，避免了传统固定长度位置编码带来的限制。

超越Sora！全球首个带背景音乐，文生1080超高清视频模型-AI.x社区

Movie Gen通过将空间坐标以及时间坐标转化为独立的嵌入向量，再将它们相加得到最终的位置表示，从而有效减少了因位置编码不当导致的画面扭曲或变形现象，尤其是在时间维度上表现尤为明显。

超越Sora！全球首个带背景音乐，文生1080超高清视频模型-AI.x社区

为了降低性能消耗，Movie Gen引入了多维度并行化策略，包括数据并行、张量并行、序列并行以及上下文并行。这种三维并行化设计允许模型在参数数量、输入token数和数据集大小三个轴向上进行扩展，同时也能横向扩展至更多的GPU设备上。

特别是在处理高分辨率视频时，由于自注意力机制本身的计算复杂度较高，因此高效的并行化策略对于减少所需的计算资源至关重要。

论文地址：https://ai.meta.com/static-resource/movie-gen-research-paper

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/Eb8N-bKB99P4vMqCIwtytg

标签

赞

收藏

回复

举报

回复

相关推荐

文生视频时代已到，百度、讯飞、字节谁能率先做出“国产Sora”？

liutao988 • 2736浏览 • 0回复
详解Latte：应用于文生视频的DiT模型

jordana • 4113浏览 • 0回复
音乐版Sora！文生超逼真歌曲，可自定义歌词、时间延长

Aceryt • 4088浏览 • 0回复
首个国产音乐SOTA模型来了！专为中文优化，免费用，不限曲风

轻薄滴假象 • 2751浏览 • 0回复
音乐人值得尝试的十大文本转音乐AI平台

51CTO内容精选 • 3955浏览 • 0回复
谷歌发布Veo：文生超1分钟、1080P视频，媲美Sora

Aceryt • 4660浏览 • 0回复
媲美Sora，免费使用！带物理模拟的，文生视频模型

Aceryt • 3837浏览 • 0回复
首个多模态视频竞技场Video-MME来了！Gemini全面超越GPT-4o，Jeff Dean连转三次

duhorse • 2920浏览 • 0回复
与Sora同架构，高效、连贯文生视频模型

Aceryt • 2414浏览 • 0回复
比肩Sora，免费试用！国外惊讶，中国文生视频模型超高质量！

Aceryt • 3436浏览 • 0回复
文生视频模型Runway、Luma同时开放API

Aceryt • 2957浏览 • 0回复
比肩Sora！快手、北大开源，超高清10秒、24帧视频模型

Aceryt • 2467浏览 • 0回复
微软发布Mora视频模型，吊打Sora？

echo_ning • 2160浏览 • 0回复
INTELLECT-1：全球首个去中心化训练的 10B 参数大模型

Syrupup • 3300浏览 • 0回复
Sora来了！文字秒变视频，附技术细节

云原生AI百宝箱 • 2455浏览 • 0回复
全球首个混合推理模型Claude 3.7 Sonnet发布，编码能力直接起飞！

AI博物院 • 2816浏览 • 0回复
音乐界的DeepSeek来了！全球首个音乐推理大模型Mureka O1上线，音乐领域要迎来大变革了？

算家计算 • 1738浏览 • 0回复
超越Sora！谷歌推出Veo 2，生成8秒超逼真视频

Aceryt • 1638浏览 • 0回复
中文图文生成再进化,2K高清+爆改文字渲染,远超Canva！

angel • 3427浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

刚刚，OpenAI发布GPT-image-1模型，更强吉卜力版本来啦 2025-04-24 09:57:36发布
字节跳动开源多模态AI Agent—UI-TARS-1.5 2025-04-23 11:55:00发布

热门推荐

从原理到调参，小白也能读懂的大模型微调LoRA，不懂线性代数也没问题 0回复

AI Agents开源工具栈全解析~ 0回复

本命周！MiniMax M1有多猛？网友：仅用40k思考预算就干翻Gemini，实测：真·超DS！ 1回复

效果&成本双突破！快手提出端到端生成式推荐系统OneRec！ 0回复

图像编辑革命！FLUX.1 Kontext [dev]震撼开源：挑战GPT-4o的图像编辑 0回复

上一篇：苹果开源高清扩散模型MDM，能在多个分辨率下同时去噪

下一篇：谷歌提出视觉记忆方法，让大模型训练数据更灵活

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载