阿里巴巴通义实验室正式开源了他们最新、最强大的视频生成模型 Wan2.1 系列!
Wan2.1 亮点速览
✨ 复杂运动: 视频动作更流畅自然,复杂场景也能轻松驾驭
🧲 物理模拟: 物体交互更真实,视频更具沉浸感
🎬 电影质感: 视觉效果更上一层楼,细节更丰富,更具艺术性
✏️ 可控编辑: 编辑能力更强大,创作空间更广阔
✍️ 视觉文字: 中英文动态文字生成,应用场景更丰富
🎶 音效音乐: 视听体验一体化,视频极具感染力
Wan2.1 系列模型家族,为不同需求的用户提供了多样化的选择:
Wan2.1-I2V-14B: 图像到视频 (I2V) 领域的天花板! 140亿参数,720P高清画质,I2V 性能 SOTA!Wan2.1-T2V-14B: 文本到视频 (T2V) 领域的性能王者! 140亿参数,720P高清画质,T2V 性能 SOTA! 独家支持中英文文字生成!Wan2.1-T2V-1.3B: 消费级显卡的最佳拍档! 13亿参数,480P流畅运行,8GB显存即可畅玩! 性能媲美部分闭源大模型!
阿里还附上了Wan2.1 的技术报告
从技术报告来看 Wan2.1 的突破性进展,主要得益于以下几大创新:
核心创新一: 3D 变分自编码器 (VAE) —— 视频压缩与质量的完美平衡!
Wan2.1 团队创新性地提出了3D 因果 VAE 架构,专为视频生成量身打造! 它巧妙地融合了多种策略,在时空压缩、内存控制和时间因果性 之间找到了最佳平衡点,让 VAE更高效、更易扩展,并与扩散模型 DiT 完美结合!
长视频处理秘诀: 特征缓存机制 (Feature Cache Mechanism): 为了高效处理任意长度的视频,Wan2.1 的 VAE 在因果卷积模块中引入了特征缓存机制。 它将视频帧序列 (1+T 格式) 分割成 1 + T/4 个 chunks,每个 chunk 对应一个潜在特征。 模型以 chunk-wise 策略 处理视频,每次编解码操作只处理对应一个潜在表示的视频 chunk。 每个 chunk 的帧数被限制在 最多 4 帧,有效防止了 GPU 内存溢出!
性能飞跃: 速度提升 2.5 倍! 实验证明,Wan2.1 的视频 VAE 性能卓越,在视频质量和处理效率上都表现出色。 在相同的硬件环境 (单 A800 GPU) 下,Wan2.1 VAE 的 重建速度比 SOTA 方法 HunYuanVideo 快了 2.5 倍! 在高分辨率下,速度优势将更加明显!
核心创新二: 视频扩散 DiT (Diffusion Transformer) —— 强大生成力的源泉!
Wan2.1 基于主流扩散 Transformer 范式和 Flow Matching 框架构建了视频扩散模型 DiT。 它巧妙地利用了T5 Encoder来编码多语言文本,并通过在每个 Transformer Block 中加入 交叉注意力,将文本信息深度融入模型结构。
参数高效优化: 线性层 + SiLU 层 + 共享 MLP: Wan2.1 采用线性层和 SiLU 层处理时间 Embedding,并预测六个调制参数。 关键在于,一个共享的 MLP被所有 Transformer Block 共用,每个 Block 只学习不同的偏差 (biases)。 实验表明,这种方法在 参数规模不变的情况下,显著提升了模型性能! 因此,1.3B 和 14B 模型都采用了这种架构。
核心创新三: 模型扩展与训练效率优化 —— 更大模型,更快速度
为了训练更大规模的 Wan2.1 模型,并提升训练和推理效率,团队采用了多种并行策略:
训练加速: FSDP + 上下文并行 (CP): 训练时,Wan2.1 使用FSDP (Fully Sharded Data Parallel) 进行模型分片,并结合上下文并行 (CP)。 FSDP group 和 CP group 相交而非嵌套。 在 FSDP 中,数据并行 (DP) size 等于 FSDP size 除以 CP size。 在满足内存和单 batch 延迟要求后,使用 DP 进行扩展。
推理加速: 上下文并行 (CP): 推理时,为了减少单视频生成延迟,Wan2.1 选择上下文并行 (CP) 进行分布式加速。 对于 14B 等大型模型,模型分片 (FSDP)也是必需的。 考虑到视频序列通常较长,FSDP 比张量并行 (TP) 通信开销更小,并允许计算与通信重叠。
并行策略细节: 2D 上下文并行: 训练和推理都采用相同的 2D 上下文并行策略: 机器间 (external layer) 使用 RingAttention,机器内 (intra-machine) 使用 Ulysses。 实验表明,在 Wan 14B 大模型上,使用 2D CP 和 FSDP 并行策略,DiT 实现了 近乎线性的加速!
核心创新四: Image-to-Video (I2V) —— 图像驱动,精准可控!
Wan2.1 在 Image-to-Video (I2V) 任务上也表现出色,实现了更强的 可控性。 其 I2V 的关键技术包括:
条件图像引导: 将 条件图像作为视频的第一帧,并与零填充帧沿时间轴拼接,形成引导帧 (guidance frames)。
VAE 压缩条件信息: 使用 3D VAE 将引导帧压缩为 条件潜在表示 (condition latent representation)。
二元掩码 (Binary Mask) 控制生成区域: 引入二元掩码,1 表示保留帧,0 表示需要生成的帧。 掩码的空间尺寸与条件潜在表示匹配,时间长度与目标视频相同。 掩码会被重塑为与 VAE 的时间步幅相对应的特定形状。
融合机制: 将噪声潜在表示、条件潜在表示和重塑后的掩码沿通道轴拼接,输入到 DiT 模型中。
I2V 专属投影层: 由于 I2V DiT 模型的输入通道数比 T2V 模型更多,因此增加了一个 额外的投影层,并用零值初始化。
CLIP 图像编码器 + MLP 全局上下文: 使用 CLIP 图像编码器** 提取条件图像的特征表示。 通过三层 MLP** 将特征投影为全局上下文 (global context),并通过解耦交叉注意力 (decoupled cross-attention)** 注入到 DiT 模型中。
海量高质量数据集 —— 模型性能的基石!
为了训练出强大的 Wan2.1 模型,通义实验室构建了一个 规模庞大、质量极高的数据集,包含 15 亿个视频和 100 亿张图像! 数据来源包括 内部版权数据和公开数据。
四步数据清洗流程: 为了从海量数据中筛选出 高质量、多样化 的数据,团队设计了 四步数据清洗流程,从 基本维度、视觉质量和运动质量 等方面对数据进行严格筛选,确保训练数据的纯净度和有效性。 (具体四步流程细节,期待官方技术报告的详细解读!)
写在最后:
AI圈现在太卷了,阿里这次开源很有诚意,但是感觉阿里现在需要一个拳头产品来破圈了,DeepSeek的光环太耀眼了。