鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

轻薄滴假象

发布于 2024-8-5 09:13

浏览

0收藏

目前，扩散模型能够生成多样化且高质量的图像或视频。此前，视频扩散模型采用 U-Net 架构，主要侧重于合成有限时长（通常约为两秒）的视频，并且分辨率和纵横比受到固定限制。

Sora 的出现打破了这一限制，其采用 Diffusion Transformer（DiT）架构，不仅擅长制作 10 到 60 秒的高质量视频，而且还因其生成不同分辨率、各种纵横比、且遵守实际物理定律的能力而脱颖而出。

可以说 Sora 是 DiT 架构最有利的证明，然而，基于 Transformer 的扩散模型在有效生成可控动作视频方面还未被充分探索。

针对这一问题，来自阿里的研究者提出了 Tora，这是第一个面向轨迹的 DiT 架构，它将文本、视觉和轨迹条件同时集成在一起以生成视频。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律-AI.x社区

Tora 的设计与 DiT 的可扩展性无缝契合，允许精确控制具有不同持续时间、宽高比和分辨率的视频内容。大量实验证明，Tora 在实现高运动保真度方面表现出色，同时还能细致模拟物理世界的运动。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律-AI.x社区

论文地址：https://arxiv.org/pdf/2407.21705
论文主页：https://ali-videoai.github.io/tora_video/
论文标题：Tora: Trajectory-oriented Diffusion Transformer for Video Generation

一艘老式的木制帆船沿着规定好的路线在迷雾笼罩的河流上平稳地滑行，周围是茂密的绿色森林。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律-AI.x社区

一条鲫鱼优雅地游过火星的红色岩石表面，鱼的轨迹向左，火星的轨迹向右。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律-AI.x社区

热气球沿着不同的轨迹升入夜空，一个沿着规定的斜线，另一个沿着有弯度的轨迹。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律-AI.x社区

两只可爱的小猫并排走在宁静的金色沙滩上。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律-AI.x社区

气泡沿着轨迹轻轻地漂浮在盛开的野花中。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律-AI.x社区

枫叶在清澈的湖面上颤动，映照着秋天的森林。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律-AI.x社区

山间的瀑布倾泻而下，主题、背景的运动都可以按照不同的路线运动。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律-AI.x社区

在 Tora 与其他方法的比较中，可以看出 Tora 生成的视频流畅度更高，更遵循轨迹，且物体不会存在变形的问题，保真度更好。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律-AI.x社区

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律-AI.x社区

方法介绍

Tora 采用 OpenSora 作为其 DiT 架构的基础模型，包含一个轨迹提取器 (TE，Trajectory Extractor)、时空 DiT（Spatial-Temporal DiT ）和一个运动引导融合器 (MGF，Motion-guidance Fuser) 。TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动 patch。MGF 将运动 patch 集成到 DiT 块中，以生成遵循轨迹的一致视频。图 3 概述了 Tora 的工作流程。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律-AI.x社区

时空 DiT（ST-DiT）

ST-DiT 架构包含两种不同的块类型：空间 DiT 块 (S-DiT-B) 和时间 DiT 块 (T-DiT-B)，它们交替排列。S-DiT-B 包含两个注意力层，每个层按顺序执行空间自注意力 (SSA) 和交叉注意力，后面跟着一个逐点前馈层，用于连接相邻的 T-DiT-B 块。T-DiT-B 仅通过用时间自注意力 (TSA) 替换 SSA 来修改此架构，从而保持架构一致性。在每个块中，输入在经过规范化后，通过跳跃连接连接回块的输出。通过利用处理可变长度序列的能力，去噪 ST-DiT 可以处理可变持续时间的视频。

轨迹提取器

轨迹已被证明是一种更加用户友好的方法来控制生成视频的运动。然而，DiT 模型采用视频自编码器和 patch 化过程将视频转换为视频 patch。在这里，每个 patch 都是跨多个帧导出，因此直接采用帧间偏移是不合适的。为了解决这个问题，本文提出的 TE 将轨迹转换为运动 patch，运动 patch 与视频 patch 位于相同的潜在空间。

运动引导融合器

为了将基于 DiT 的视频生成与轨迹结合起来，本文探索了三种融合架构变体，将运动 patch 注入每个 ST-DiT 块。这些设计如图 4 所示。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律-AI.x社区

实验结果

在实现细节上，研究者基于 OpenSora v1.2 权重来训练 Tora。训练视频的分辨率由 144p 到 720p 不等。为了平衡训练 FLOP 以及每次迭代不同分辨率和帧数所需的内存，研究者相应地将批大小从 1 调整到 25。

至于训练基础设施，研究者使用了 4 块英伟达 A100 和 Adam 优化器，学习率为 2 × 10^−5。

研究者将 Tora 与流行的运动指导视频生成方法进行了比较。评估中使用了三种设置，分别为 16、64 和 128 帧，所有设置都是 512×512 的分辨率。

结果如下表 1 所示，在 U-Net 方法常用的 16 帧设置下，MotionCtrl 和 DragNUWA 能够更好地与所提供的轨迹实现对齐，但仍弱于 Tora。随着帧数增加，U-Net 方法在某些帧中出现明显偏差，并且错位误差传播会导致后续序列中出现变形、运动模糊或物体消失。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律-AI.x社区

相比之下，得益于集成了 Transformer 的缩放能力，Tora 对帧数变化表现出很高的稳健性。Tora 产生的运动更加流畅，且更符合物理世界。对于 128 帧测试设置下的评估，Tora 的轨迹精度达到其他方法的 3 到 5 倍，展现出了卓越的运动控制能力。

在下图 5 中，研究者对不同分辨率和持续时长的轨迹误差进行分析。结果显示，不同于 U-Net 随时间推移出现明显的轨迹误差，Tora 的轨迹误差随时间推移出现渐进增加。这与 DiT 模型中视频质量随时间增加而下降相一致。Tora 在更长的时间下保持了有效的轨迹控制。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律-AI.x社区

下图 6 展示了 Tora 与主流运动控制方法的比较分析，在包含两人共同运动的场景中，所有方法都能生成相对准确的运动轨迹。不过，Tora 的视觉质量更好，这要归功于更长序列帧的使用，有助于实现更平滑的运动轨迹和更逼真的背景渲染。

可以看到，在 Tora 生成的自行车场景中，人的双腿表现出逼真的踩踏动作，而 DragNUWA 的双腿几乎水平漂浮，违反了物理真实性。此外，DragNUWA 和 MotionCtrl 在视频结尾处都出现了严重的运动模糊。

在另一个生成灯笼的场景中，DragNUWA 随着所提供轨迹的持续升降出现了严重的变形。MotionCtrl 的轨迹虽然相对准确，但生成的视频与两个灯笼的描述不相符。Tora 不仅严格地遵循了轨迹，而且最大程度地减少了物体变形，确保了更高保真度的动作表示。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律-AI.x社区

更多技术细节和实验结果请参阅原论文。

本文转自机器之心，作者：机器之心

原文链接:https://mp.weixin.qq.com/s/GMN9lsFsM-5uMabStLoKEQ

标签

赞

收藏

回复

举报

回复

相关推荐

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

轻薄滴假象 • 1261浏览 • 0回复
当前最强国产Sora！清华团队突破16秒长视频，懂多镜头语言，会模拟物理规律

轻薄滴假象 • 1347浏览 • 0回复
媲美Sora的国产视频生成器背后技术探秘

angel • 7089浏览 • 0回复
阿里巴巴AI研究团队打破视频生成技术壁垒，EasyAnimate实现高质量长视频生成

Syrupup • 2517浏览 • 0回复
这家世界模型公司发布中国版Sora级视频生成大模型，走向世界模型打造新一代数据引擎

轻薄滴假象 • 1691浏览 • 0回复
媲美Sora，免费使用！带物理模拟的，文生视频模型

Aceryt • 2193浏览 • 0回复
谷歌卷视频到语音，逼真音效让AI视频告别无声！

轻薄滴假象 • 1162浏览 • 0回复
AI恐怖体操视频腿脚乱飞、大变活人，LeCun：视频生成模型根本不懂物理

Crystalcxt • 1074浏览 • 0回复
ICML 2024 Spotlight | 在解码中重新对齐，让语言模型更少幻觉、更符合人类偏好

轻薄滴假象 • 1659浏览 • 0回复
阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成

angel • 1742浏览 • 0回复
精准可控新视角视频生成+场景级3D生成！北大&港中文&腾讯等开源ViewCrafter

angel • 1276浏览 • 0回复
Open-Sora 1.1 解读：完全开源的高效复现类Sora视频生成方案！

angel • 1044浏览 • 0回复
阿里商业级视频生成框架——轨迹控制版视频生成 Tora 重磅开源！

angel • 1043浏览 • 0回复
艺术家泄露OpenAI Sora视频生成神器，附地址

云原生AI百宝箱 • 702浏览 • 0回复
公开版 OpenAI Sora 震撼登场！独立产品，开服就被挤爆！视频可控性拉满！奥特曼：视频的GPT时代开启

51CTO技术栈 • 763浏览 • 0回复
OpenAI 发布 Sora：最受期待的 AI 视频生成工具

Halo咯咯 • 552浏览 • 0回复
让创意起飞！用户可控的电影级图像到视频生成方法！港中文&Adobe发布MotionCanvas

angel • 673浏览 • 0回复
像Sora一样，用物理模拟方式生成视频

Aceryt • 330浏览 • 0回复
阿里发布通义万相2.1 :最佳视频生成模型

Halo咯咯 • 675浏览 • 0回复

轻薄滴假象

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

DeepSeek一口气开源3个项目，还有梁文锋亲自参与，昨晚API大降价 7天前发布
全球首个AI CUDA工程师来了！将PyTorch原生实现提速10-100倍 2025-02-21 13:20:31发布

热门推荐

带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈 1回复

4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！ 0回复

国家队出手！DeepSeek上线国家超算互联网平台，免注册开箱即用！ 0回复

VLLM 与 Ollama：如何选择合适的轻量级 LLM 框架？ 0回复

低成本+高性能+超灵活！Deepseek 671B + Milvus 重新定义知识库搭建！ 0回复

上一篇：只要一张图就能「还原」绘画过程，这篇论文比爆火的Paints-UNDO实现得更早

下一篇： AI画家的「滑铁卢」：为什么冰可乐不愿意住进茶杯里？

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载