千帧长视频时代到来！MIT全新扩散算法让任意模型突破时长极限-51CTO.COM

进入到 2025 年，视频生成（尤其是基于扩散模型）领域还在不断地「推陈出新」，各种文生视频、图生视频模型展现出了酷炫的效果。其中，长视频生成一直是现有视频扩散的痛点。

近期，MIT 团队火遍外网的新论文《History-guided Video Diffusion》提出了一种全新算法 Diffusion Forcing Transformer（DFoT），在不改动原有架构的情况下就能让模型稳定输出比之前近 50 倍、近千帧长的视频。

论文地址：https://arxiv.org/abs/2502.06764
项目主页：https://boyuan.space/history-guidance/

该算法生成的视频如此之长，以至于只能截短并降低帧率才能放下。我们先来一睹生成视频的效果。

在现有的视频扩散模型中，无分类器引导（Classifier-free Guidance, CFG）已被广泛应用于提升采样质量。然而，目前的视频模型通常只使用第一帧进行引导，而忽略了其他历史帧的重要性。作者的研究发现：历史信息才是提升视频生成质量的关键因素！

因此，通过在去噪过程中混合长历史模型和短历史模型的不同预测，论文提出了一系列「历史引导」算法 (History Guidance)，显著提升了视频扩散模型的质量、生成长度、鲁棒性与可组合性。

在 X 上，论文共同一作 Boyuan Chen 的论文推介收获了十几万的阅读量、近千的点赞量。

该工作刚一推出便受到了大量网友的赞誉，尤其看到了 DFoT 算法对视频扩散模型的影响。

谷歌研究科学家、3d gaussian splating 一作 George Kopanas 转达并评论道，「一年前，连续的长期视频看起来是不可能的。而现在可以做到了！这项工作令人印象深刻，也提供了一个非常有趣的潜在想法。」

方法概览

论文提出首先要训练一个能根据不同部分的历史进行去噪预测的视频模型。作者把不同历史定义如下：

不同长度的历史
历史的不同子集
特定频率域的历史。

这样的模型能够灵活地应对不同场景，例如图生视频或是延长已有的视频。遗憾的是，目前的视频扩散模型架构并不具备这种灵活性。如果简单地把历史帧编码后喂给 AdaLN 层并使用无分类器引导常见的随机丢弃法进行训练，实际效果会非常差。

相反，作者提出了一个极其简洁的算法 Diffusion Forcing Transformer (DFoT)，在不改变架构的情况下就可以实现以上目标。

具体来说，作者提出把热门前作 Diffusion Forcing 中提出的噪声掩码 (noise as masking) 概念带入到视频生成架构中 —— 训练扩散模型时可以对每一帧使用不同的噪声强度。某一帧无噪声时相当于直接把该帧作为条件信息，而最强的噪声相当于完全移除这一帧的信息。给定一个既有的传统 DiT 架构，DFoT 只需要控制噪声掩码就可以训练任意子序列的预测任务。

作者提到，这样做保留了把现有模型直接微调成 DFoT 的可行性，并且 Adobe 公司已经在他们的视频大模型 CausVid 上验证过了 Diffusion Forcing 微调。

图（左）：传统的视频模型要需要把历史信息编码进 AdaLN 层来兼容多历史帧。图（右）：DFoT 架构仅用噪声掩码来区分历史帧和预测帧。

DFoT 一旦训练好就可以进行极其灵活的采样。如下图所示，如果要把前四帧作为条件，可以控制噪声掩码给前四帧 0 噪声（第一行）；如果要进行无条件生成，可以把所有历史帧设为白噪声（第二行）；如果要把短历史作为条件，可以掩码较早的历史帧。

DFoT 的采样和历史引导。

基于这种能力，作者引出了一系列「历史引导」算法。历史引导扩展了无分类起引导的概念，不仅在采样过程中组合有条件模型和无条件模型，还能通过加权去噪组合多重不同的历史条件。其中最简单的版本 (HG-v) 已经能大幅提高视频的质量，较为先进一点的跨时间历史采样 (Temporal History Guidance) 和跨频率域历史采样 (Fractional History Guidance) 更是分别增强了鲁棒性和动作幅度。

实验结果

作者进行了一系列实验来分别验证 DFoT 架构和历史引导。

首先，在经典的 Kinetics 600 数据集上，DFoT 超过了所有同架构下的视频扩散算法，并仅使用学术届的计算就和谷歌闭源大模型的结果打成平手。

不光如此，DFoT 是可以用任意长度的历史生成视频的，并不像其他算法一样在训练时就要指定特定历史长度。作者还特意验证了从经典扩散算法微调而来的 DFoT 模型，发现一样能获得出色的效果。

无历史引导下 DFoT 的效果。

接下来，作者开始验证结合了历史引导的 DfoT。

在 kinetics600 上，原有的任务是给定前 6 帧预测下面 11 帧。由于 DFoT 极其稳定，作者直接把 11 帧拓展到了 64 帧，并在 FVD 和 vBench 上大幅超过了之前的模型。同时，文中提出的 HG-f 可以在保持稳定性的情况下避免模型生成静止的画面。

kinetics 上的对比。

在 RealEstate10K 数据集上，论文更是断崖式领先：在此之前，大部分算法只能在该数据集上做到给定开头结尾去插值中间帧，两个最强闭源模型 LVSM 和 4DiM 的在给定第一帧预测视频的情况下最多只能生成二三十帧。

而 Diffusion Forcing Transformer 和历史引导直接做到了单图生成近一千帧，并且提供了全套开源和 Huggingface 展示。

DFoT 可以在 RealEstate10K 上单图生成近千帧。

总结

论文提出了 Diffusion Forcing Transformer (DFoT)，一个能用任何历史帧作为条件的视频扩散架构。DFoT 让历史引导 (History Guidance) 成为了可能，使得视频质量和长度都大幅增加。论文还涉及了大量其他内容，例如数学证明，鲁棒性，组合性和机器人实验等近四十页。

作者提供的开源实现详细提供了复现的所有步骤，并且在 Huggingface 上提供了在线体验，感兴趣的读者可以直接根据论文主页的链接在浏览器里直接验证论文效果。

Huggingface 地址：https://huggingface.co/spaces/kiwhansong/diffusion-forcing-transformer

此外，为了方便读者们进一步学习了解该论文，我们邀请到了论文共同一作、MIT计算机系四年级博士生陈博远于北京时间2月27日20:00直播解读该研究，欢迎感兴趣的读者预约观看。