阿里商业级视频生成框架——轨迹控制版视频生成 Tora 重磅开源！

发布于 2024-10-18 09:19

浏览

0收藏

论文链接：https://arxiv.org/pdf/2407.21705

项目链接：https://ali-videoai.github.io/tora_video/

代码链接：https://github.com/alibaba/Tora

阿里团队最近在 GitHub 上推出了其创新的文生视频生成工具——Tora，为学术界和开源社区提供了新的研究资源。Tora 基于先进的DiT框架，专注于轨迹控制的视频生成。此次开源的版本包括了完整的推理代码和模型权重，旨在为研究人员和开发者提供高效的工具，促进技术交流与学习。从GitHub 上的 README 文件来看，由于阿里目前的商业使用计划，当前开放的是文生视频版本的Tora。未来，阿里团队计划推出 ModelScope 的试用 demo、训练代码以及完整版本的 Tora，以满足更多用户的需求，这无疑将推动文生视频技术的进一步发展。

目前从Github仓库来看，Tora 的文生视频生成能力通过 Gradio 的可视化界面呈现，确保用户体验流畅且易于操作。用户可以通过以下步骤轻松创建一段6s的轨迹可控视频：

绘制轨迹：用户可以选择预设轨迹或自定义绘制路径，实现个性化的控制。
输入文本提示：通过输入文本 prompt，用户能够定义视频内容，推荐使用详细描述以提高生成效果的丰富性。

阿里商业级视频生成框架——轨迹控制版视频生成 Tora 重磅开源！-AI.x社区

在github仓库展示的 demo 中，Tora 在处理多种轨迹形式时表现出色。不论是直线轨迹还是曲线路径，系统皆能精准地生成与之对应的视频。尤其值得注意的是，当文本提示中的对象与预设轨迹明显不太可能匹配时，Tora 动态地调整物体的局部运动，确保其整体运动仍然符合自然规律，并保持视觉的一致性。这种机制使得生成的视频在自然度和协调性上都有了显著提高。如果您对这项技术感兴趣，欢迎访问其github（https://github.com/alibaba/Tora），一同探索这项前沿技术的魅力。

阿里商业级视频生成框架——轨迹控制版视频生成 Tora 重磅开源！-AI.x社区

前面AI生成未来分享过Tora的技术文章解读：

寥寥数笔，动画自成！阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成

文章亮点
本文引入了Tora，这是第一个轨迹导向的DiT用于视频生成。如下图2所示，Tora无缝整合了广泛的视觉和轨迹指令，从而能够熟练地创建可操控运动的视频。
为了与DiT的可扩展性保持一致，本文设计了一种新颖的轨迹提取器和运动引导融合机制，以获取时空运动块，随后将这些块注入DiT块中。本文对几种架构选择进行了消融实验，并为未来基于DiT的运动控制研究提供了实证基线。
实验表明，Tora能够生成具有不同纵横比的720p分辨率视频，最长可达204帧，所有这些都由指定的轨迹引导。此外，它在模拟物理世界中的运动方面表现出色。

阿里商业级视频生成框架——轨迹控制版视频生成 Tora 重磅开源！-AI.x社区

结论

Tora是第一个面向轨迹的扩散Transformer框架，用于视频生成，集成了文本、图像和轨迹条件。Tora有效地将任意轨迹编码为时空运动块，这与DiT的缩放特性相一致，从而实现了更逼真的物理世界运动模拟。通过采用两阶段训练过程，Tora在各种持续时间、纵横比和分辨率下实现了运动可控的视频生成。值得注意的是，它可以生成符合指定轨迹的高质量视频，最高可达204帧，分辨率为720p。这一能力突显了Tora在处理多样化运动模式时的多功能性和鲁棒性，同时保持高视觉保真度。本文希望本文的工作为未来的运动引导扩散Transformer方法研究提供一个强有力的基线。

本文转自 AI生成未来，作者：AI生成未来

原文链接:https://mp.weixin.qq.com/s/RZe868TGiKamPChVEf7nDw

标签

模型

框架