Wan2.1背后的技术：阿里发布全能框架VACE，一统视频生成与编辑，效果惊艳！

angel

发布于 2025-3-14 13:37

浏览

0收藏

Wan2.1背后的技术：阿里发布全能框架VACE，一统视频生成与编辑，效果惊艳！-AI.x社区

文章链接：https://arxiv.org/pdf/2503.07598
项目链接：https://ali-vilab.github.io/VACE-Page/

亮点直击

统一框架：VACE是首个基于视频DiT架构的全能模型，支持广泛的视频生成与编辑任务。
概念解耦与上下文适配器：通过概念解耦策略和上下文适配器结构，实现了对编辑和参考任务的自适应处理。
多功能与高效性：VACE框架不仅减少了服务部署和用户交互的成本，还通过任务组合扩展，提供了多功能和高效的视频合成解决方案。
创新性与竞争力：在缺乏多任务基准的情况下，VACE通过构建包含12种不同任务的数据集，展示了其在视频合成领域的创新性和竞争力。

效果展示

Wan2.1背后的技术：阿里发布全能框架VACE，一统视频生成与编辑，效果惊艳！-AI.x社区

总结速览

解决的问题

视频生成与编辑的统一性挑战：由于视频在时间和空间维度上的内在一致性需求，实现视频生成与编辑的统一方法仍然具有挑战性。
多任务模型的灵活性：现有的视频生成模型在处理长视频、多条件和参考生成以及连续视频编辑等方面存在困难，缺乏一个统一的框架来整合这些任务。

提出的方案

VACE框架：提出了一个全能的视频生成与编辑框架VACE，支持参考视频生成、视频到视频编辑、mask视频到视频编辑等任务，并通过统一的视频条件单元（VCU）整合多种输入模态。
概念解耦策略：通过概念解耦策略，使模型能够理解需要保留和修改的部分，从而更好地处理编辑和参考任务。
上下文适配器结构：采用可插拔的上下文适配器结构，通过时空协同表示将不同任务的概念注入模型，使其具备自适应处理统一任务的能力。

应用的技术

扩散 Transformers（DiTs）：利用当前主流的扩散transformers结构作为基础视频框架，并结合预训练的文本到视频生成模型，提供更好的基础能力和扩展性。
视频条件单元（VCU）：设计了一个统一的接口VCU，整合了编辑、参考和mask等多种模态的输入。
上下文适配器：通过上下文适配器结构，将不同任务的概念注入模型，实现自适应处理。

达到的效果

性能竞争力：在定量和定性分析中，VACE框架表现出足够的竞争力，与现有的专用模型相比，性能相当。
任务组合的多样性：通过基础任务的组合扩展，构建了如长视频重新渲染等场景，提供了多功能和高效的视频合成解决方案。
用户创造力的提升：通过整合不同任务的能力，解决了现有视频生成模型的挑战，赋予用户更大的创造力。

方法

VACE 被设计为一个多模态到视频生成的模型，其中文本、图像、视频和mask被整合到一个统一的条件输入中。为了覆盖尽可能多的视频生成和编辑任务，我们对现有任务进行了深入研究，然后根据它们对多模态输入的不同需求将其分为 4 类。在不失一般性的情况下，我们在视频条件单元（VCU）范式下为每个类别专门设计了一种新颖的多模态输入格式。最后，为 VCU 输入重构了 DiT 模型，使其成为一个适用于广泛视频任务的多功能模型。

多模态输入与视频任务

尽管现有的视频任务在复杂的用户输入和雄心勃勃的创意目标上各不相同，但我们发现它们的大多数输入可以完全用 4 种模态表示：文本、图像、视频和mask。总体而言，如下图 2 所示，根据这四种多模态输入的需求将这些视频任务分为 5 类。

Wan2.1背后的技术：阿里发布全能框架VACE，一统视频生成与编辑，效果惊艳！-AI.x社区

文本到视频生成（T2V）是一个基本的视频创建任务，文本是唯一的输入。
参考到视频生成（R2V）需要额外的图像作为参考输入，确保指定的内容（如人脸、动物和其他物体的主体，或视频帧）出现在生成的视频中。
视频到视频编辑（V2V）对提供的视频进行整体更改，例如着色、风格化、可控生成等。我们使用视频控制类型，其控制信号可以表示为 RGB 视频，包括深度、灰度、姿态、涂鸦、光流和布局；然而，该方法本身并不限于这些。
mask视频到视频编辑（MV2V）仅在提供的 3D 感兴趣区域（3D ROI）内对输入视频进行更改，与其他未更改区域无缝融合，例如修复、外绘、视频扩展等。我们使用额外的时空mask来表示 3D ROI。
任务组合包括上述 4 种视频任务的所有组合可能性。

视频条件单元

本文提出了一种输入范式，即视频条件单元（VCU），将多样化的输入条件统一为文本输入、帧序列和mask序列。一个 VCU 可以表示为：

Wan2.1背后的技术：阿里发布全能框架VACE，一统视频生成与编辑，效果惊艳！-AI.x社区

架构

本文为 VACE 重构了 DiT 模型，如下图 3 所示，旨在支持多模态 VCU 输入。由于已有文本标记化的流程，我们仅考虑上下文帧和mask的标记化。标记化后，上下文tokens与噪声视频tokens结合，并对 DiT 模型进行微调。与此不同，我们还提出了一种上下文适配器调优策略，允许上下文tokens通过上下文块并添加回原始的 DiT 块。

Wan2.1背后的技术：阿里发布全能框架VACE，一统视频生成与编辑，效果惊艳！-AI.x社区

上下文标记化

Wan2.1背后的技术：阿里发布全能框架VACE，一统视频生成与编辑，效果惊艳！-AI.x社区

完全微调与上下文适配器调优

为了实现以 VCU 为输入的训练，一种简单的方法是完全微调整个 DiT 模型，如前面图 3a 所示。上下文tokens X与噪声tokens 一起添加，DiT 和新引入的上下文嵌入器中的所有参数将在训练期间更新。为了避免完全微调并实现更快的收敛，同时建立与基础模型的可插拔特性，我们还提出了另一种方法，以 Res-Tuning的方式处理上下文tokens，如上图 3b 所示。特别是，我们从原始 DiT 中选择并复制了几个 Transformer 块，形成分布式和级联型的上下文块。原始 DiT 处理视频tokens和文本tokens，而新添加的 Transformer 块处理上下文tokens和文本tokens。每个上下文块的输出作为附加信号插入回 DiT 块中，以协助主分支执行生成和编辑任务。在这种方式下，DiT 的参数被冻结，只有上下文嵌入器和上下文块是可训练的。

数据集

数据构建

为了获得一个全能模型，所需数据构建的多样性和复杂性也随之增加。现有的常见文本到视频和图像到视频任务仅需要构建文本和视频对。然而，对于 VACE 中的任务，模态需要进一步扩展，包括目标视频、源视频、局部mask、参考等。为了高效快速地获取各种任务的数据，必须在保持视频质量的同时，对视频数据进行实例级分析和理解。

为此，我们首先通过镜头切片对视频数据本身进行分析，并根据分辨率、美学评分和运动幅度初步过滤数据。接下来，使用 RAM 对视频的第一帧进行标注，并结合 Grounding DINO 进行检测，利用定位结果对目标区域过小或过大的视频进行二次过滤。此外，采用 SAM2 的传播操作进行视频分割，以获取视频中的实例级信息。利用视频分割的结果，我们通过基于mask区域阈值的有效帧比例计算，在时间维度上过滤实例。

在实际训练过程中，不同任务的数据构建还需要根据每个任务的特点进行调整：

对于一些可控视频生成任务，我们从过滤后的视频中预提取深度、涂鸦、姿态和光流。对于灰度和布局任务，我们动态创建数据。
对于修复任务，可以从视频中随机mask实例以进行修复，而mask的反转则支持外绘数据的构建。mask的增强允许无条件修复。
对于扩展任务，我们提取关键帧，如第一帧、最后一帧、两端帧、随机帧和两端片段，以支持更多类型的扩展。
对于参考任务，可以从视频中提取几个人脸或物体实例，并应用离线或在线增强操作来创建配对数据。值得注意的是，我们随机组合所有上述任务进行训练，以适应更广泛的模型应用场景。此外，对于所有涉及mask的操作，我们执行任意增强以满足各种粒度的局部生成需求。

VACE 基准

视频生成领域已取得显著进展。然而，对这些模型性能的科学和全面评估仍然是一个亟待解决的问题。VBench和 VBench++通过广泛的评估套件和维度设计，为文本到视频和图像到视频任务建立了精确的评估框架。然而，随着视频生成生态系统的不断发展，更多衍生任务开始出现，例如视频参考生成和视频编辑，这些任务仍缺乏全面的基准。为了解决这一问题，我们提出了 VACE-Benchmark，以系统的方式评估与视频相关的各种下游任务。

从数据源开始，真实视频和生成视频在评估过程中可能表现出不同的性能特征。因此，本文收集了总共 240 个高质量视频，按来源分类，涵盖各种数据类型，包括文本到视频、修复、外绘、扩展、灰度、深度、涂鸦、姿态、光流、布局、参考人脸和参考物体任务，每个任务平均有 20 个样本。输入模态包括输入视频、mask和参考，还提供了原始视频，以便开发者根据每个任务的具体特点进行进一步处理。关于数据提示，提供了视频的原始描述用于定量评估，以及针对特定任务重写的提示，以评估模型的创造力。

实验

实验设置

实现细节：VACE 基于不同规模的文本到视频生成的扩散transformers（Diffusion Transformers）进行训练。它利用 LTX-Video-2B实现更快的生成，而 Wan-T2V-14B则用于更高质量的输出，支持高达 720p 的分辨率。训练采用分阶段的方法。首先，我们专注于修复和扩展等基础任务，这些任务被认为是预训练文本到视频模型的模态补充，包括mask的整合以及时空维度上下文生成的学习。接下来，从任务扩展的角度，我们逐步从单输入参考帧过渡到多输入参考帧，从单一任务过渡到复合任务。最后，我们使用更高质量的数据和更长的序列对模型质量进行微调。模型训练的输入支持任意分辨率、动态时长和可变帧率，以满足用户的多样化输入需求。

基线模型：目标是实现视频创建和编辑任务的统一，目前尚无类似的全能视频生成模型可供比较，因此我们将评估重点放在将我们的通用模型与专有的任务特定模型进行比较。此外，由于涉及的任务众多且许多任务缺乏开源方法，我们对比了离线或在线可用的模型。具体任务对比如下：

对于 I2V 任务，比较了 I2VGenXL、CogVideoX-I2V 和 LTX-Video-I2V；
在修复任务中，比较了 ProPainter用于去除修复，而 Follow-Your-Canvas和 M3DDM用于外绘；
对于可控任务，在深度条件下使用 Control-A-Video、VideoComposer 和 ControlVideo，在姿态条件下比较 Text2Video-Zero、ControlVideo 和 Follow-Your-Pose，在光流条件下比较 FLATTEN；
在参考生成任务中，由于缺乏开源模型，比较了商业产品 Keling1.6、Pika2.2和 Vidu2.0。

评估方法：为了全面评估各种任务的性能，使用 VACE-Benchmark 进行评估。具体来说，将评估分为自动评分和用户研究的手动评估。对于自动评分，利用 VBench 中的部分指标来评估视频质量和视频一致性，包括八个指标：美学质量、背景一致性、动态程度、成像质量、运动平滑度、整体一致性、主体一致性和时间闪烁。对于手动评估，我们使用平均意见分数（MOS）作为评估指标，重点关注三个方面：提示跟随、时间一致性和视频质量。在实际操作中，对生成的数据进行匿名处理，并随机分发给不同参与者进行 1 到 5 分的评分。

主要结果

定量评估：在 VACE-Benchmark 上基于 LTX-Video 的 VACE 综合模型与任务专用方法进行了比较。对于某些任务，我们遵循现有方法；例如，尽管我们支持基于任意帧生成，但为了确保公平性，使用当前开源方法中的首帧参考方法进行比较。从下表 2 中可以看出，对于 I2V、修复、外绘、深度、姿态和光流任务，我们的方法在视频质量和视频一致性的八个指标上表现优于其他开源方法，归一化平均指标显示出更优的结果。一些竞争方法只能生成 256 分辨率，生成时长非常短，并且在时间一致性上表现出不稳定性，导致自动指标计算表现较差。对于 R2V 任务，与商业模型相比，小规模快速生成模型在指标上仍有一定差距，但与 Vidu 2.0 的指标相当。根据人类用户研究的结果，我们的方法在多个任务的评估指标上表现一致更好，与用户偏好高度吻合。

Wan2.1背后的技术：阿里发布全能框架VACE，一统视频生成与编辑，效果惊艳！-AI.x社区

定性结果：下图 1展示了 VACE 单一模型在多种任务中的结果。显然，该模型在视频质量和时间一致性方面表现出色。在下图 4 所示的组合任务中，我们的模型展示了令人印象深刻的能力，有效地整合了不同的模态和任务，生成了现有单一或多个模型无法生成的结果，从而展示了其在视频生成和编辑领域的强大潜力。例如，在“Move Anything”案例中，通过提供单张输入图像和移动轨迹，我们能够精确地按照指定方向移动场景中的角色，同时保持连贯性和叙事一致性。

Wan2.1背后的技术：阿里发布全能框架VACE，一统视频生成与编辑，效果惊艳！-AI.x社区

消融实验

为了更好地理解不同独立模块对统一视频生成框架的影响，基于 LTX-Video 模型进行了一系列系统对比实验，以实现更好的模型结构和配置。为了准确评估不同的实验设置，我们为每个任务采样 250 个数据点作为验证集，并计算训练损失，通过不同任务的平均曲线变化反映模型的训练进展。

基础结构：文本引导的图像或视频生成模型仅以噪声作为推理输入。当扩展到我们的统一输入范式 VCU 时，我们可以通过完全微调或引入额外参数微调进行训练。具体来说，如图 5a 所示，我们比较了沿通道维度连接不同输入的方法，并修改了 patchify 投影层的输入维度，以实现预训练模型的加载和完全微调。以 Res-Tuning 的形式引入了一些额外的训练参数，将 VCU 序列化到旁路分支中，并将信息注入主分支。结果表明，两种方法的效果相似；然而，由于额外参数微调收敛更快，我们基于此方法进行后续实验。如下图 5b 所示，进一步基于此结构进行了超参数实验，重点关注权重方案、时间戳偏移和 p-zero 等方面。

Wan2.1背后的技术：阿里发布全能框架VACE，一统视频生成与编辑，效果惊艳！-AI.x社区

上下文适配器：由于上下文块的数量会显著影响模型大小和推理时间消耗，尝试找到上下文块的最佳数量和分布。从输入侧选择连续块开始，并比较前 1/4 块、1/2 块和所有块。受 Res-Tuning方法的启发，还尝试均匀分布注入块，而不是选择连续的块系列。如图 5c 所示，当使用相同数量的块时，分布排列的块在浅层块中优于连续排列。此外，更多的块通常会产生更好的结果，但由于效果提升有限且训练资源受限，采用了部分分布排列的块。

概念解耦：在训练过程中，引入了概念解耦处理模块，进一步分解视觉单元，明确模型需要学习修改或保留的内容。如图 5d 所示，使用该模块导致损失显著减少。

结论

VACE，一个全能视频生成与编辑框架。它统一了各种视频任务所需的多样化复杂多模态输入，弥合了针对每个单独任务的专用模型之间的差距。这使得大多数视频 AI 创作任务可以通过单一模型的单次推理完成。在广泛覆盖各种视频任务的同时，VACE 还支持这些任务的灵活自由组合，极大地扩展了视频生成模型的应用场景，满足了广泛的用户创作需求。VACE 框架为开发具有多模态输入的统一视觉生成模型铺平了道路，并代表了视觉生成领域的一个重要里程碑。

本文转自AI生成未来，作者：AI生成未来

原文链接:https://mp.weixin.qq.com/s/jV5I2qLrCUDOfN-8Nf8IxA

标签

视频

生成

51CTO

51CTO博客

51CTO学堂

Wan2.1背后的技术：阿里发布全能框架VACE，一统视频生成与编辑，效果惊艳！

效果展示

总结速览

解决的问题

提出的方案

应用的技术

达到的效果

方法

多模态输入与视频任务

视频条件单元

架构

上下文标记化

完全微调与上下文适配器调优

数据集

数据构建

VACE 基准

实验

实验设置

主要结果

消融实验

结论

目录