AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒

发布于 2025-2-27 12:26
浏览
0收藏

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

论文链接:https://arxiv.org/pdf/2502.15894 项目链接:https://riflex-video.github.io/ 


亮点直击

  • 通过分析现有方法的失败模式并揭示位置嵌入中各个频率成分的作用,提供了对视频长度外推的全面理解。
  • 提出了RIFLEx,一种简单而有效的解决方案,通过适当降低内在频率来减少重复,且无需任何额外修改。
  • RIFLEx提供了一种真正的“免费午餐”——在最先进的视频扩散Transformer上以完全无需训练的方式实现高质量的2倍外推。此外,通过少量微调且无需长视频,它进一步提升了质量并实现了3倍外推。

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

总结速览

解决的问题

  1. 生成长视频的挑战:现有的视频生成模型在生成长视频时面临时间一致性差的问题,容易出现时间重复或运动减速的现象。
  2. 长度外推技术的不足:现有的长度外推方法在应用于视频生成时表现不佳,导致时间重复和运动减速。

提出的方案

  1. RIFLEx方法:提出了一种名为RIFLEx(Reducing Intrinsic Frequency for Length Extrapolation)的方法,通过降低内在频率来抑制时间重复,同时保持运动一致性。
  2. 训练自由和微调:RIFLEx在2倍外推时无需任何训练即可实现高质量视频生成,而在3倍外推时仅需少量微调。

应用的技术

  1. 频率成分分析:通过隔离和调整位置嵌入中的频率成分,发现高频成分导致时间重复,低频成分导致运动减速。
  2. 内在频率调整:识别并降低内在频率,确保外推后频率保持在一个周期内,从而抑制重复并保持运动一致性。
  3. 扩散Transformer:应用了扩散Transformer(diffusion transformers)技术,结合了扩散模型的可扩展性和Transformer的表达能力。

达到的效果

  1. 高质量视频生成:RIFLEx在2倍外推时实现了高质量、自然的视频生成,且无需额外训练。
  2. 3倍外推:通过少量微调,RIFLEx进一步提升了样本质量,并实现了3倍外推。
  3. 广泛验证:在多个先进的视频扩散Transformer(如CogVideoX-5B和HunyuanVideo)上进行了广泛实验,验证了RIFLEx的有效性。
  4. 空间外推:RIFLEx还可以同时应用于空间域,扩展视频时长和空间分辨率。

方法

本文目标是全面理解并解决视频长度外推问题。首先强调了现有方法的失败模式,分析了位置嵌入中不同频率成分的作用,并识别了一个内在频率。基于此,推导出了内在频率。作为副产品,本文方法不仅为现有方法在视频外推中的失败提供了理论解释,还为图像空间外推提供了见解。

现有方法的失败模式

尽管“外推”一词在不同领域被广泛使用,但它在视频生成中的作用与文本和图像有根本不同。在视频生成中,目标是创建新的、时间上连贯的内容,并使其随时间平滑演变。相比之下,文本外推主要是扩展上下文窗口,而图像外推通常涉及添加高分辨率细节,而不是生成有意义的新内容。


因此,为文本和图像开发的外推策略在视频长度外推中失败,并表现出有趣的失败模式,如图2所示。为了更好地理解这些模式,还在图像空间外推中进行了对比实验,揭示了与视频的相似之处。

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

  • PE(直接扩展位置编码超出训练范围)会导致时间重复,使视频循环播放而不是自然推进(图2a)。在图像生成中,类似现象表现为空间重复,而不是生成新内容。
  • PI(Chen et al., 2023b)将位置编码压缩在训练范围内,导致运动变慢,通过拉伸帧时间来实现(图2b)。虽然这种方法保持了结构一致性,但缺乏时间上的新颖性。在图像生成中,这会导致细节模糊而不是新内容(图2e)。
  • 如图2c所示,NTK也会引起时间重复,无法生成有意义的运动进展。在图像生成中,它会导致空间重复(图2f)。虽然其他方法(Peng et al., 2023; Lu et al., 2024b; Zhuo et al., 2024)在实现上与NTK不同,但它们都不可避免地遭受这两种失败模式中的一种或两种:要么是运动减速,要么是内容重复。


除了揭示这些局限性外,本文的发现还提供了对位置嵌入如何从根本上塑造时间运动的直观理解,这为在下一节中的频率成分分析提供了动机。

RoPE中的频率成分分析

首先分析了RoPE(Su et al., 2021)中各个频率成分的作用。为了简化,专注于时间轴并省略下标。我们通过将其他频率成分置零来隔离特定频率成分,并在目标模型的训练长度上进行微调,以适应修改后的RoPE。通过这一分析,得出了两个关键见解。

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

给定训练L长度,时间重复的次数可以量化为:

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

令人惊讶的是,尽管N在不同视频中存在轻微变化,但同一模型生成的不同视频中,这种内在频率保持一致。例如,CogVideoX-5B的k为2,而HunyuanVideo的k为4。


在极少数情况下,如果模型在不同视频中表现出不一致的内在频率,建议将所有此类频率视为内在频率。我们的初步实验进一步验证了这一假设,表明将所有低频成分纳入我们的方法中仍能保持强大的性能,详见附录E的讨论。

降低内在频率:一种最小化解决方案

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

我们进一步研究了RIFLEx是否需要微调。令人惊讶的是,对于2倍外推,RIFLEx可以在无需训练的情况下生成高质量视频,如图4所示。仅使用20,000个原始长度视频和1/50,000的预训练计算量进行微调,可以进一步增强动态质量和视觉质量。

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

对于3倍外推,内在频率的变化过大,导致无需训练的RIFLEx失效。然而,微调过程仍然成功,如图4所示。

现有方法的理论解释

我们的发现为第3.1节中观察到的失败模式提供了理论解释。在PE和NTK中观察到的重复现象源于它们的内在频率成分违反了公式(8)中的非重复条件。因此,生成的视频内容循环播放而不是自然推进。


PI和YaRN通过对高频成分进行插值导致运动变慢,而这些成分对快速运动至关重要。在这些方法中,这些成分被除,因此无法生成快速运动。TASR结合了上述两种方法,导致时间重复和运动减速的混合。更多细节和实验请参见附录C。

实验

实验设置

我们描述了数据集和评估设置,具体实现细节见表3(见附录D)。


数据集:我们使用一个包含20,000个视频的私有数据集进行微调。对于CogVideoX-5B,我们采用VBench的提示词,以确保与之前的工作(Yang et al., 2024)一致。由于HunyuanVideo的高计算成本,我们使用100个跨多个类别的多样化提示词对其进行评估。

评估指标:根据之前的工作(Huang et al., 2024; Yang et al., 2024),我们使用图像质量(Imaging Quality)动态程度(Dynamic Degree)主体一致性(Subject Consistency)来评估视频生成,分别衡量视觉质量、运动幅度和时间一致性。此外,我们引入了无重复分数(NoRepeat Score),分数越高表示重复越少(详见附录D)。我们还进行了包含10名参与者的用户研究,评估视觉质量、运动质量和整体偏好。运动质量反映了重复和慢动作的情况。用户在所有外推方法中对偏好进行排名,允许并列。我们还对正常样本和RIFLEx的结果进行了成对比较。更多细节见附录D。

性能比较

结果:定量结果总结在表1中。我们的方法在整体性能上表现优异,生成了新的时间内容,同时不损害视频质量的其他方面。例如,在CogVideoX-5B中,PI和YaRN因慢动作问题导致动态程度较低,而PE和NTK因重复问题导致无重复分数较低。通过有效解决这两个挑战,我们的方法显著提升了运动质量,并在用户研究中在所有方法中排名最高。


值得注意的是,NTK在HunyuanVideo的2倍外推中表现良好,但我们的分析将其归因于意外的内在频率降低,恰好满足了公式(8)中的非重复条件,而非其设计机制。这一点在NTK在CogVideo-X和HunyuanVideo的2.3倍外推中失败时尤为明显,反映在表1中的低无重复分数上。


定性结果如图5所示(HunyuanVideo),CogVideoX-5B的额外对比见附录F。图5与定量结果一致,展示了我们的方法在有效缓解慢动作和重复问题方面的能力,从而提高了整体视频质量。此外,仅需1/50,000预训练计算量的最小微调程序进一步提升了动态程度、图像质量和无重复分数。最后,借助强大的HunyuanVideo基础模型,我们的方法实现了接近训练长度的性能——56.0%和61.6%的用户更倾向于训练长度而非我们的方法。


下图5. 基于HunyuanVideo的长度外推可视化结果。通过有效解决慢动作和重复问题,实现了更好的视频质量。值得注意的是,虽然HunyuanVideo中的NTK在2倍外推时偶然避免了重复,但在更长的外推(如2.3倍)时仍然遇到了显著的重复问题。

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

最大外推范围:实验表明,RIFLEx支持最多3倍外推,超过此范围后质量显著下降(例如4倍外推,见下图9)。这可能是因为过度的频率降低削弱了RoPE的有效性,导致在训练长度内的编码变化极小。

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区


扩展到其他外推类型:进一步探索了RIFLEx在空间外推和联合时空外推中的应用。如图1b和图1c所示,调整对应维度的内在频率可以实现分辨率外推和联合时空扩展。

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒-AI.x社区

从129帧到261帧的2倍时间外推的更多结果

结论

通过分析RoPE中频率成分的作用,提供了对视频长度外推的全面理解。基于这些见解,提出了RIFLEx,这是一种简单而有效的解决方案,通过降低内在频率来防止重复。RIFLEx在无需训练的情况下,在SOTA视频扩散Transformer上实现了高质量的2倍外推,并通过少量微调实现了3倍外推,且无需长视频。


尽管在现有预训练模型上证明了RIFLEx的有效性,但尚未探索其从头训练的性能,这留待未来工作。


本文转自AI生成未来 ,作者:AI生成未来


原文链接:​​https://mp.weixin.qq.com/s/ABQzvmRM74pzP1bmm3J1wA​

收藏
回复
举报
回复
相关推荐