寥寥数笔,动画自成!阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成 精华
论文链接:https://arxiv.org/pdf/2407.21705
项目链接:https://ali-videoai.github.io/tora_video/
亮点直击
- 本文引入了Tora,这是第一个轨迹导向的DiT用于视频生成。如下图2所示,Tora无缝整合了广泛的视觉和轨迹指令,从而能够熟练地创建可操控运动的视频。
- 为了与DiT的可扩展性保持一致,本文设计了一种新颖的轨迹提取器和运动引导融合机制,以获取时空运动块,随后将这些块注入DiT块中。本文对几种架构选择进行了消融实验,并为未来基于DiT的运动控制研究提供了实证基线。
- 实验表明,Tora能够生成具有不同纵横比的720p分辨率视频,最长可达204帧,所有这些都由指定的轨迹引导。此外,它在模拟物理世界中的运动方面表现出色。
最近在 Diffusion Transformer (DiT) 方面的进展展示了其在生成高质量视频内容方面的卓越能力。然而,基于transformer的扩散模型在有效生成具有可控运动的视频方面的潜力仍然是一个探索有限的领域。本文介绍了Tora,这是第一个轨迹导向的DiT框架,它同时整合了文本、视觉和轨迹条件用于视频生成。具体来说,Tora由轨迹提取器 (TE)、时空DiT和运动引导融合器 (MGF) 组成。TE通过3D视频压缩网络将任意轨迹编码为分层时空运动块。MGF将运动块整合到DiT块中,以生成遵循轨迹的一致视频。本文的设计与DiT的可扩展性无缝对接,允许对视频内容的动态进行精确控制,支持多种时长、纵横比和分辨率。大量实验表明,Tora在实现高运动保真度方面表现出色,同时还精细地模拟了物理世界的运动。
方法
Preliminary
潜在视频扩散模型(Latent Video Diffusion Model, LVDM)。LVDM通过集成3D U-Net增强了Stable Diffusion模型,从而提升了视频数据处理的效率。这个3D U-Net设计在每个空间卷积中增加了一个额外的时间卷积,并在每个空间注意力块之后跟随相应的时间注意力块。它通过噪声预测目标函数进行优化:
Tora
Tora 采用 OpenSora 作为其 DiT 架构的基础模型。为了在不同持续时间内实现精确且用户友好的运动控制,Tora 引入了两个新的运动处理组件:轨迹提取器(Trajectory Extractor, TE)和运动引导融合器(Motion-guidance Fuser, MGF)。这些模块用于将提供的轨迹编码为多层次时空运动补丁,并将这些补丁精细地集成到 DiT 块的堆叠结构中。Tora 的工作流程概述如下图 3 所示。
时空 DiT(ST-DiT) ST-DiT 架构包含两种不同类型的块:空间 DiT 块(S-DiT-B)和时间 DiT 块(T-DiT-B),它们以交替顺序排列。S-DiT-B 包含两个注意力层,每个注意力层依次执行空间自注意(Spatial Self-Attention, SSA)和交叉注意(Cross-Attention),然后是一个逐点前馈层,用于连接相邻的 T-DiT-B 块。值得注意的是,T-DiT-B 仅通过用时间自注意(Temporal Self-Attention, TSA)替换 SSA 来修改此架构,从而保持架构的一致性。在每个块内,输入在归一化后,通过跳跃连接(skip-connections)连接回块的输出。通过利用处理可变长度序列的能力,去噪 ST-DiT 可以处理不同持续时间的视频。
运动引导融合器。 为了将基于 DiT 的视频生成与轨迹相结合,本文探索了三种将运动块注入每个 ST-DiT 块的融合架构变体。这些设计如下图 4 所示。
本文实验了三种类型的融合架构,发现自适应归一化表现出最佳的生成性能和计算效率。在本文的其余部分,MGF 使用自适应归一化层,除非另有说明。
训练策略和数据处理
为了在使用任意轨迹生成视频时实现细粒度控制,以及文本、图像或它们的组合,本文为不同的条件注入引入了几种训练策略。
运动条件训练,受到 DragNUWA 和 MotionCtrl 的启发,本文采用两阶段的训练方法来进行轨迹学习。在第一阶段,本文从训练视频中提取稠密光流作为轨迹,提供更丰富的信息以加速运动学习。在第二阶段,为了使模型从完整的光流适应到更用户友好的轨迹,本文根据运动分割结果和光流得分随机选择 1 到N个对象轨迹样本。从稀疏轨迹中解决分散问题,本文应用高斯滤波进行细化。完成两阶段训练后,Tora 能够使用任意轨迹实现灵活的运动控制。
图像条件训练,本文遵循 OpenSora 使用的mask策略来支持视觉条件。具体来说,本文在训练期间随机解除帧的mask,未mask帧的视频块不受任何噪声影响。这使得本文的 Tora 模型能够无缝地将文本、图像和轨迹整合到一个统一的模型中。
实验
定量和定性结果
本文将本文的方法与流行的运动引导视频生成方法进行了比较。评估在三种设置下进行:16帧、64帧和128帧,所有帧的分辨率均为512X512,以确保公平比较。提供的轨迹被剪裁以适应不同评估的视频长度。对于大多数基于U-Net的方法,本文采用序列推理,其中上一批生成的最后一帧作为当前批次的视觉条件,以符合其推理设置。如下表1所示,在基于U-Net的方法常用的16帧设置下,MotionCtrl和DragNUWA与提供的轨迹对齐较好,但仍不及本文提出的Tora。当帧数增加时,基于U-Net的方法在某些帧中表现出显著的偏差,错位误差传播并导致后续序列中的变形、运动模糊或对象消失。相比之下,Tora由于整合了transformer的缩放能力,对不同帧数表现出高度的鲁棒性。Tora生成的运动更加平滑,并且更符合物理世界。当在128帧测试设置下进行评估时,Tora的轨迹准确性超过其他方法3到5倍,展示了其卓越的运动控制能力。在下图5中,本文提供了不同分辨率和时长下的轨迹误差分析。与基于U-Net的模型不同,后者随时间推移表现出显著的轨迹误差,Tora的轨迹误差仅随时长增加而逐渐增加。这种误差的逐渐增加与DiT模型在时长延长时观察到的视频质量下降相一致。结果清楚地表明,本文的方法在较长时长内保持了有效的轨迹控制。
下图6展示了本文提出的方法与主流运动控制技术的对比分析。在第一个场景中,涉及两个人的共同运动,所有方法都能够生成相对准确的运动轨迹。然而,本文的方法在视觉质量上表现出色。这一优势主要归功于使用了更长的序列帧,从而实现了更平滑的运动轨迹和更逼真的背景渲染。例如,在本文生成的自行车场景中,人类的腿部表现出真实的踩踏动作,而DragNUWA的输出中腿部几乎水平漂浮,违反了物理现实。此外,DragNUWA和MotionCtrl在视频结尾处都出现了显著的运动模糊。更进一步,尽管没有摄像机运动条件,MotionCtrl在骑行序列中引入了意外的摄像机移动。在另一个案例中,随着提供的轨迹不断上升和下降,DragNUWA显示了灯笼的严重变形。尽管MotionCtrl的轨迹相对准确,但生成的视频未能匹配预期的两个灯笼的描绘。总体而言,本文的方法不仅紧密遵循提供的轨迹,还最大限度地减少了物体变形,从而确保了更高保真度的运动表现。
消融实验
本文进行了若干消融研究以分析设计选择的影响。所有模型均在480p分辨率、16:9宽高比和204帧的条件下进行评估。
轨迹压缩。 为了将轨迹向量整合到与视频片段相同的潜在空间中,本文研究了三种不同的轨迹压缩方法,如下表2所总结的。第一种方法在连续的4帧区间内采样中帧作为关键帧,并采用Patch-Unshuffle进行空间压缩。尽管其简单,但由于在遇到快速运动或遮挡时可能产生潜在的流估计误差,这种方法在运动控制方面表现不佳。此外,所选帧间隔引起的片段间相似性放大,增加了学习难度。第二种方法使用平均池化来汇总连续帧。虽然这捕捉到了一般的运动感,但通过均质化轨迹的方向和幅度,它无意中牺牲了精度,从而稀释了关键的运动细节。为了尽可能保留连续帧之间的轨迹信息,本文进一步使用3D VAE提取连续轨迹区间的全局上下文。轨迹数据被视觉化为RGB图像格式,以利用现有的3D VAE权重。在大量轨迹视频上进行广泛训练的这种设置下,产生了最有利的结果,强调了本文定制的3D VAE方法在轨迹压缩中的有效性。
设计块和MGF的集成位置,本文按照之前描述的方法训练了三种不同的MFG块,结果如下表3所示。值得注意的是,自适应归一化块在FVD和轨迹误差方面都比交叉注意力和额外通道条件方法更低,同时还表现出最高的计算效率。这种优势归因于其在不同条件下无需严格对齐的情况下进行动态特征适应的能力,这是交叉注意力常遇到的限制。此外,通过随时间调节条件信息,它确保了时间一致性,这对于注入运动提示至关重要。相比之下,通道连接可能会导致信息拥塞,使运动信号的效果减弱。在训练过程中,本文观察到将归一化层初始化为恒等函数对于实现最佳性能非常重要。
此外,本文评估了MGF模块在Spatial DiT和Temporal DiT块中的集成位置。本文的研究结果表明,将MGFembeddingTemporal DiT块中显著增强了轨迹运动控制,轨迹误差从23.39下降到14.25。这种方法提高了MGF与时间动态交互的效率,从而显著改善了运动合成的保真度。
训练策略。 本文评估了两阶段训练方法的有效性,结果总结在下表4中。仅使用密集光流进行训练效果不佳,因为它无法准确捕捉提供的稀疏轨迹中的复杂细节。另一方面,仅使用稀疏轨迹进行训练提供的信息有限,使得学习过程更加困难。通过首先使用密集光流进行训练,然后使用稀疏轨迹进行微调,本文的模型展示了对各种类型轨迹数据的更高适应性。这种方法不仅增强了整体性能,还提高了模型处理多样化运动模式的能力。
结论
本文介绍了Tora,这是第一个面向轨迹的扩散Transformer框架,用于视频生成,集成了文本、图像和轨迹条件。Tora有效地将任意轨迹编码为时空运动块,这与DiT的缩放特性相一致,从而实现了更逼真的物理世界运动模拟。通过采用两阶段训练过程,Tora在各种持续时间、纵横比和分辨率下实现了运动可控的视频生成。值得注意的是,它可以生成符合指定轨迹的高质量视频,最高可达204帧,分辨率为720p。这一能力突显了Tora在处理多样化运动模式时的多功能性和鲁棒性,同时保持高视觉保真度。本文希望本文的工作为未来的运动引导扩散Transformer方法研究提供一个强有力的基线。
本文转自 AI生成未来 ,作者:Zhenghao Zhang