腾讯出手了!开源最大AI视频模型,130亿参数,性能媲美闭源,击败Runway Gen-3、Luma 1.6

原创 精选
人工智能
为了应对用户提供的提示在语言风格和长度上的差异,团队对 Hunyuan-Large 模型进行了微调,作为我们的提示重写模型,将原始用户提示转换为模型偏好的提示。

编辑 | 伊风

出品 | 51CTO技术栈(微信号:blog51cto)

AI视频领域持续不断有新玩家入局!

12月3日,腾讯出手了,不仅在元宝APP里上线AI视频功能,还直接开源了混元视频模型!

图片图片

(打开元宝APP,若没有找到入口的话,可以检查是否更新到了最新版本,目前可能会有排队时间。)

腾讯一来就干了票大的:直接开源了AI视频里最大的模型——130 亿参数!

开源地址:https://github.com/Tencent/HunyuanVideo

混元团队对HunyuanVideo的性能也很有信心,“其视频生成性能可与领先的闭源模型媲美,甚至在某些方面更胜一筹”。

这源于背后能打的战绩,混元一挑5个闭源模型,排位第一!(注:GEN-3来自Runway 公司;Luma 1.6来自 Luma AI,CNTop系列来自系列腾讯旗下的映技派)

图片图片

AI视频生成的文本对齐、动作质量和视觉质量没有统一的“题库”,需要人的判断。

我们先来看看腾讯自己的demo。

然后小编又用Sora经典的Prompt测试了一下,大家来看看效果如何:

电影预告片,讲述了一位30岁的太空人的冒险故事。他戴着一顶红色羊毛针织摩托车头盔,背景是蓝天和盐碱沙漠。影片采用电影化风格,使用35毫米胶片拍摄,色彩鲜艳。

一段超真实的特写视频,展示了两艘海盗船在一杯咖啡中激烈交战,咖啡的液面如同海洋,船只在其中航行,波涛汹涌,炮火四射。

看完了视频生成效果,我们来看看HunyuanVideo的4个技术层面的特点!

1.统一图像和视频生成架构

HunyuanVideo 采用的也是 Transformer 设计,使用了全注意力机制来实现统一的图像和视频生成。

具体而言,混元采用了“从双流到单流”的混合模型设计进行视频生成。在双流阶段,视频和文本标记通过多个 Transformer 块独立处理,使每种模态能够学习其适当的调制机制,而不相互干扰。在单流阶段,我们将视频和文本标记连接起来,并将它们输入到后续的 Transformer 块,以有效地融合多模态信息。

这一设计捕捉了视觉和语义信息之间的复杂交互,增强了整体模型性能。

2.MLLM 文本编码器

不同于文本到视频模型通常使用预训练的 CLIP 和 T5-XXL 作为文本编码器(其中 CLIP 使用 Transformer 编码器,而 T5 使用编码器-解码器结构。)

混元采用了预训练的多模态大型语言模型(MLLM)。

根据他们的技术报告,采用解码器-only 结构作为文本编码器,有以下优点:

(i) 与 T5 相比,经过视觉指令微调后的 MLLM 在特征空间中具有更好的图像-文本对齐性,从而缓解了扩散模型中指令跟随的难度;(ii) 与 CLIP 相比,MLLM 在图像细节描述和复杂推理上表现出了更强的能力;(iii) MLLM 可以通过跟随系统指令来作为零样本学习者,帮助文本特征更好地关注关键信息。此外,MLLM 基于因果注意力,而 T5-XXL 使用的是双向注意力,后者为扩散模型提供了更好的文本指导。因此,我们引入了额外的双向标记细化器来增强文本特征。

3.3D VAE

HunyuanVideo 使用 CausalConv3D 训练 3D VAE,将像素空间的视频和图像压缩到紧凑的潜在空间中。

HunyuanVideo设置了视频长度、空间和通道的压缩比分别为 4、8 和 16。这可以显著减少后续扩散 Transformer 模型所需的标记数量,使我们能够以原始分辨率和帧率训练视频。

4.提示重写

为了应对用户提供的提示在语言风格和长度上的差异,团队对 Hunyuan-Large 模型进行了微调,作为我们的提示重写模型,将原始用户提示转换为模型偏好的提示。

混元提供了两种重写模式:普通模式和大师模式,可以通过不同的提示进行调用。普通模式旨在增强视频生成模型对用户意图的理解,促进更准确地解释用户提供的指令。大师模式则增强了构图、照明和镜头运动等方面的描述,更倾向于生成具有更高视觉质量的视频。然而,这种侧重点有时可能导致某些语义细节的丧失。

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2024-07-30 10:58:49

AI

2024-04-25 13:58:51

开源模型Vicuna

2024-12-03 15:51:45

2024-11-26 12:10:41

2024-04-19 09:17:33

AI模型

2024-05-10 09:10:56

模型训练

2023-12-12 13:52:00

数据训练

2022-10-21 08:17:06

开源项目闭源

2023-12-13 12:55:39

模型数据

2022-12-06 14:11:32

开源模型

2023-03-15 10:26:00

模型开源

2023-11-16 12:20:11

2023-12-12 12:43:04

AI模型

2020-02-24 10:51:25

微软开源Windows

2023-12-03 08:49:38

微软开源

2022-08-18 15:13:37

模型参数

2021-09-30 11:20:01

AI 数据人工智能

2020-11-18 10:29:07

模型人工智能开源

2023-12-01 12:31:22

AI模型

2023-06-09 12:56:17

AlpacaWizardLMVicuna
点赞
收藏

51CTO技术栈公众号