阿里商业级视频生成框架——轨迹控制版视频生成 Tora 重磅开源!
论文链接:https://arxiv.org/pdf/2407.21705
项目链接:https://ali-videoai.github.io/tora_video/
代码链接:https://github.com/alibaba/Tora
阿里团队最近在 GitHub 上推出了其创新的文生视频生成工具——Tora,为学术界和开源社区提供了新的研究资源。Tora 基于先进的DiT框架,专注于轨迹控制的视频生成。此次开源的版本包括了完整的推理代码和模型权重,旨在为研究人员和开发者提供高效的工具,促进技术交流与学习。从GitHub 上的 README 文件来看,由于阿里目前的商业使用计划,当前开放的是文生视频版本的Tora。未来,阿里团队计划推出 ModelScope 的试用 demo、训练代码以及完整版本的 Tora,以满足更多用户的需求,这无疑将推动文生视频技术的进一步发展。
目前从Github仓库来看,Tora 的文生视频生成能力通过 Gradio 的可视化界面呈现,确保用户体验流畅且易于操作。用户可以通过以下步骤轻松创建一段6s的轨迹可控视频:
- 绘制轨迹:用户可以选择预设轨迹或自定义绘制路径,实现个性化的控制。
- 输入文本提示:通过输入文本 prompt,用户能够定义视频内容,推荐使用详细描述以提高生成效果的丰富性。
在github仓库展示的 demo 中,Tora 在处理多种轨迹形式时表现出色。不论是直线轨迹还是曲线路径,系统皆能精准地生成与之对应的视频。尤其值得注意的是,当文本提示中的对象与预设轨迹明显不太可能匹配时,Tora 动态地调整物体的局部运动,确保其整体运动仍然符合自然规律,并保持视觉的一致性。这种机制使得生成的视频在自然度和协调性上都有了显著提高。如果您对这项技术感兴趣,欢迎访问其github(https://github.com/alibaba/Tora),一同探索这项前沿技术的魅力。
前面AI生成未来分享过Tora的技术文章解读:
寥寥数笔,动画自成!阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成
文章亮点
- 本文引入了Tora,这是第一个轨迹导向的DiT用于视频生成。如下图2所示,Tora无缝整合了广泛的视觉和轨迹指令,从而能够熟练地创建可操控运动的视频。
- 为了与DiT的可扩展性保持一致,本文设计了一种新颖的轨迹提取器和运动引导融合机制,以获取时空运动块,随后将这些块注入DiT块中。本文对几种架构选择进行了消融实验,并为未来基于DiT的运动控制研究提供了实证基线。
- 实验表明,Tora能够生成具有不同纵横比的720p分辨率视频,最长可达204帧,所有这些都由指定的轨迹引导。此外,它在模拟物理世界中的运动方面表现出色。
结论
Tora是第一个面向轨迹的扩散Transformer框架,用于视频生成,集成了文本、图像和轨迹条件。Tora有效地将任意轨迹编码为时空运动块,这与DiT的缩放特性相一致,从而实现了更逼真的物理世界运动模拟。通过采用两阶段训练过程,Tora在各种持续时间、纵横比和分辨率下实现了运动可控的视频生成。值得注意的是,它可以生成符合指定轨迹的高质量视频,最高可达204帧,分辨率为720p。这一能力突显了Tora在处理多样化运动模式时的多功能性和鲁棒性,同时保持高视觉保真度。本文希望本文的工作为未来的运动引导扩散Transformer方法研究提供一个强有力的基线。
本文转自 AI生成未来 ,作者:AI生成未来