![](https://s5-media.51cto.com/aigc/pc/static/noavatar.gif)
文本生成无限长视频,无需任何训练
韩国首尔国立大学的研究人员推出了一个创新文生视频模型——FIFO-Diffusion。
在传统的文生视频模型中,尤其是在基于扩散模型的产品中,生成长视频经常面临着质量和连贯性上的挑战。这是因为模型在训练时只能看到有限的帧数,而在实际应用中却需要生成远超过训练时长度的视频。
FIFO-Diffusion模型使用了一种创新的“对角去噪”方法来克服生成长视频的难题,以队列的方式来处理视频帧的连续,该技术灵感来源于工厂的流水线作业。
在每一步中,完全去噪的帧从前端出队,新的随机噪声帧在末端入队。这确保了每帧生成时都能参考到足够数量的前导帧,从而维持视频的整体流畅度、逻辑一致性,同时无需训练就能生成无限长的视频。
FIFO-Diffusion生成的视频
对角线去噪是FIFO-Diffusion模型的核心模块,通过一个队列来维护一系列具有不同噪声水平的视频帧。这个队列按照时间顺序排列,噪声水平随时间增加。
在每一步迭代中,队列头部的帧会被完全去噪并从队列中移除,同时在队列尾部加入一个新的带有随机噪声的帧,类似于生产中的流水线作业。
但由于模型在训练时通常是在相同噪声水平下对所有帧进行去噪,而在对角线去噪中,模型需要处理不同噪声水平的帧,会产生训练与推理之间的差异以及噪声级别差异可能导致的去噪不准确性。
所以,研究人员又引入了潜在分割和前瞻去噪两大模块,来优化去噪流程。
潜在分割模块主要是为了解决在对角线去噪过程中,引入的训练推理差距问题。潜在分割将连续的帧序列分成多个块,每个块中的帧具有相似的噪声水平。使得模型在处理每个块时,只需要关注一个较小的噪声范围内的帧,而不是在整个去噪过程中处理噪声水平差异很大的帧。
潜在分割会定义一个队列,这个队列按照时间顺序包含了从高噪声水平到低噪声水平的所有帧。然后,这个队列被等分成多个块,每个块包含了一定数量的帧。
在去噪过程中,模型将对每个块分别进行处理,而不是像传统的对角线去噪那样一次性处理所有帧。每个块内的帧都可以被更细致地去噪,因为它们之间的噪声水平差异更小。
此外,潜在分割还能提升去噪过程中的并行计算效率。由于每个块可以独立于其他块进行处理,因此可以同时在多个GPU上进行去噪计算。这种并行化处理极大提高了视频生成的效率,使得生成长视频变得更加高效。
前瞻去噪则是用来解决对角线去噪产生的,噪声级别差异可能导致的去噪不准确性问题。可帮助模型在去噪当前帧时,能够参考未来的帧。
该方法利用了对角线去噪的一个技术优势,在队列中,较晚的帧可以从前几步中更干净的帧中获益,即使是噪声水平较高的帧也能够获得更准确的去噪结果。
在前瞻去噪的过程中,模型需要对队列中的帧进行两次处理:首先,模型按照对角线去噪的方式对帧进行初步去噪;然后,在前瞻步骤中,模型再次处理这些帧会利用未来帧的信息来改进去噪结果。
此外,前瞻去噪在保持生成视频的质量、连贯性以及自然度方面也有很大的帮助。
研究人员将FIFO-Diffusion与FreeNoise、Gen-L-Video等同类模型进行了综合评估。结果显示,FIFO-Diffusion在运动平滑度、帧质量以及场景多样性方面有显著优势。即便是与需要训练的分块自回归方法LaVie+SEINE相比,其生成的视频在连续性和文本符合度上也更出色。
本文转自 AIGC开放社区 ,作者:AIGC开放社区
![](https://s5-media.51cto.com/aigc/pc/static/noavatar.gif)