腾讯出手了！开源最大AI视频模型，130亿参数，性能媲美闭源，击败Runway Gen-3、Luma 1.6-51CTO.COM

编辑 | 伊风

出品 | 51CTO技术栈（微信号：blog51cto）

AI视频领域持续不断有新玩家入局！

12月3日，腾讯出手了，不仅在元宝APP里上线AI视频功能，还直接开源了混元视频模型！

图片

（打开元宝APP，若没有找到入口的话，可以检查是否更新到了最新版本，目前可能会有排队时间。）

腾讯一来就干了票大的：直接开源了AI视频里最大的模型——130 亿参数！

开源地址：https://github.com/Tencent/HunyuanVideo

混元团队对HunyuanVideo的性能也很有信心，“其视频生成性能可与领先的闭源模型媲美，甚至在某些方面更胜一筹”。

这源于背后能打的战绩，混元一挑5个闭源模型，排位第一！（注：GEN-3来自Runway 公司；Luma 1.6来自 Luma AI，CNTop系列来自系列腾讯旗下的映技派）

图片

AI视频生成的文本对齐、动作质量和视觉质量没有统一的“题库”，需要人的判断。

我们先来看看腾讯自己的demo。

然后小编又用Sora经典的Prompt测试了一下，大家来看看效果如何：

电影预告片，讲述了一位30岁的太空人的冒险故事。他戴着一顶红色羊毛针织摩托车头盔，背景是蓝天和盐碱沙漠。影片采用电影化风格，使用35毫米胶片拍摄，色彩鲜艳。

一段超真实的特写视频，展示了两艘海盗船在一杯咖啡中激烈交战，咖啡的液面如同海洋，船只在其中航行，波涛汹涌，炮火四射。

看完了视频生成效果，我们来看看HunyuanVideo的4个技术层面的特点！

1.统一图像和视频生成架构

HunyuanVideo 采用的也是 Transformer 设计，使用了全注意力机制来实现统一的图像和视频生成。

具体而言，混元采用了“从双流到单流”的混合模型设计进行视频生成。在双流阶段，视频和文本标记通过多个 Transformer 块独立处理，使每种模态能够学习其适当的调制机制，而不相互干扰。在单流阶段，我们将视频和文本标记连接起来，并将它们输入到后续的 Transformer 块，以有效地融合多模态信息。

这一设计捕捉了视觉和语义信息之间的复杂交互，增强了整体模型性能。

2.MLLM 文本编码器

不同于文本到视频模型通常使用预训练的 CLIP 和 T5-XXL 作为文本编码器（其中 CLIP 使用 Transformer 编码器，而 T5 使用编码器-解码器结构。）

混元采用了预训练的多模态大型语言模型（MLLM）。

根据他们的技术报告，采用解码器-only 结构作为文本编码器，有以下优点：

(i) 与 T5 相比，经过视觉指令微调后的 MLLM 在特征空间中具有更好的图像-文本对齐性，从而缓解了扩散模型中指令跟随的难度；(ii) 与 CLIP 相比，MLLM 在图像细节描述和复杂推理上表现出了更强的能力；(iii) MLLM 可以通过跟随系统指令来作为零样本学习者，帮助文本特征更好地关注关键信息。此外，MLLM 基于因果注意力，而 T5-XXL 使用的是双向注意力，后者为扩散模型提供了更好的文本指导。因此，我们引入了额外的双向标记细化器来增强文本特征。

3.3D VAE

HunyuanVideo 使用 CausalConv3D 训练 3D VAE，将像素空间的视频和图像压缩到紧凑的潜在空间中。

HunyuanVideo设置了视频长度、空间和通道的压缩比分别为 4、8 和 16。这可以显著减少后续扩散 Transformer 模型所需的标记数量，使我们能够以原始分辨率和帧率训练视频。

4.提示重写

为了应对用户提供的提示在语言风格和长度上的差异，团队对 Hunyuan-Large 模型进行了微调，作为我们的提示重写模型，将原始用户提示转换为模型偏好的提示。

混元提供了两种重写模式：普通模式和大师模式，可以通过不同的提示进行调用。普通模式旨在增强视频生成模型对用户意图的理解，促进更准确地解释用户提供的指令。大师模式则增强了构图、照明和镜头运动等方面的描述，更倾向于生成具有更高视觉质量的视频。然而，这种侧重点有时可能导致某些语义细节的丧失。

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/