Seed Research | 视频生成模型最新成果,可仅靠视觉认知世界!现已开源

人工智能 开源
作为一种通用视频生成实验模型,VideoWorld 去掉语言模型,实现了统一执行理解和推理任务。同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。

视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。 

正如李飞飞教授 9 年前 TED 演讲中提到 “幼儿可以不依靠语言理解真实世界”,VideoWorld 仅通过 “视觉信息”,即浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力。团队实验发现,仅 300M 参数量下,VideoWorld 已取得可观的模型表现。

现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。然而,语言并不能捕捉真实世界中的所有知识。例如,折纸、打领结等复杂任务,难以通过语言清晰表达。

作为一种通用视频生成实验模型,VideoWorld 去掉语言模型,实现了统一执行理解和推理任务。同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。

在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld 达到了专业 5 段 9x9 围棋水平,并能够在多种环境中,执行机器人任务。

团队认为,尽管面向真实世界的视频生成和泛化仍存在很大挑战,视频生成依然可以成为一种通用的知识学习方法,并在现实世界充当思考和行动的“人工大脑”。

目前,该项目代码与模型已开源,欢迎体验交流。


VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

论文链接:https://arxiv.org/abs/2501.09781

代码链接:https://github.com/bytedance/VideoWorld

项目主页:https://maverickren.github.io/VideoWorld.github.io


1. 模型仅靠“视觉”即可学习知识 

面向本次研究,研究团队构建了两个实验环境:视频围棋对战和视频机器人模拟操控。

其中,围棋可以很好地评估模型的规则学习、推理和规划能力,且围棋关键信息仅有黑白两色及棋盘,可将外观、纹理等复杂细节与高级知识的评估分离,非常适合对上述问题的探索。同时,团队还选取了机器人任务,以考察模型在理解控制规则和规划任务方面的能力。

在模型训练环节,团队构建了一个包含大量视频演示数据的离线数据集,让模型“观看”学习,以此得到一个可以根据过往观测,预测未来画面的视频生成器。

模型架构上,团队使用朴素的自回归模型实例化视频生成器,它包含一个 VQ-VAE 编码器 - 解码器和一个自回归 Transformer 。编码器负责将视频帧(画面)转换为离散标记,Transformer 在训练期间使用这些标记预测下一标记。

在推理过程中,Transformer 生成下一帧(画面)的离散标记,这些标记随后由解码器转换回像素空间。通过任务相关的映射函数,模型可将生成画面转换为任务执行动作。这让视频生成实验模型可在不依赖任何动作标签情况下,学习和执行具体任务。

基于上述朴素的框架对围棋和机器人视频数据进行建模,团队观测到,模型可以掌握基本的围棋规则、走棋策略以及机器人操纵能力。

但团队同时也发现,视频序列的知识挖掘效率显著落后于文本形式,具体如下图所示。

图片

团队将这归因于——视频中存在大量冗余信息,影响了模型的学习效率。

例如,学习棋子移动过程中,模型只需通过状态序列中少量位置标记编码,但面向视频数据,编码器则会产生过多冗余标记,不利于模型对复杂知识的快速学习。

2. 压缩视觉变化,让视频学习更加高效 

根据上述观测结果,团队提出 VideoWorld 。它在保留丰富视觉信息的同时,压缩了关键决策和动作相关的视觉变化,实现了更有效的视频学习。

通常,视频编码需要数百或数千个离散标记来捕捉每帧内的视觉信息,这导致知识被稀疏地嵌入标记中。为此,VideoWorld 引入了一个潜在动态模型(Latent Dynamics Model, LDM),可将帧间视觉变化压缩为紧凑的潜在编码,提高模型的知识挖掘效率。

举例而言,围棋中的多步棋盘变化或机器人连续动作均表现出强时间相关性,通过将这些多步变化压缩成紧凑嵌入,不仅让策略信息更紧凑,还将前向规划指导信息进行编码。

LDM 采用了 MAGVITv2 风格的编码器 - 解码器结构,同时取消时间维度下采样,以保留每帧细节。

对于一个视频片段,LDM 采样每一帧及其后续固定数量帧,编码器先以因果方式提取每帧特征图,且进行量化,以保留详细视觉信息。

接下来,LDM 定义了一组注意力模块和对应可学习向量。每个向量通过注意力机制捕捉第一帧至后续固定帧的动态变化信息,然后通过 FSQ 量化。其中,量化器作为信息筛选器,防止 LDM 简单记忆后续帧原始内容,而非压缩关键动态信息。

最后,解码器使用第一帧的特征图和帧之间的视觉变化编码重建后续帧,最终实现对未来动作的预测和规划,实现对知识的认知学习。

下图为模型架构概览,左侧为整体架构,右侧为潜在动态模型。

图片

通过使用多个向量顺序编码第一帧到后续多帧的动态变化,VideoWorld 实现了紧凑且信息丰富的视觉表示,可以捕捉视觉序列中的短期和长期依赖关系。这对于长期推理和规划任务至关重要。

通过引入 LDM ,VideoWorld 在仅有 300M 参数量下,达到专业 5 段的 9x9 围棋水平,且不依赖任何强化学习中的搜索或奖励函数机制。在机器人任务上,VideoWorld 也展现出了对多任务、多环境的泛化能力。 3. 纯视觉模型可“预测”未来,并能“理解”因果关系觉模型可“预测”未来,并能“理解”因果关系 

3.纯视觉模型可“预测”未来,并能“理解”因果关系

针对 LDM 提高视频学习效率的原因,团队进行了更为细致地分析,得出如下 3 点结论:

  • LDM 建模了训练集的数据模式。

下图为 LDM 潜在编码 UMAP 可视化呈现,面向围棋和机器人训练集,每个点代表一个潜在编码。

其中,UMAP 是一种流行的降维算法,用于将高维数据映射到低维空间,展现模型特征提取情况。

在下图左侧中,奇数步表示白方走棋,偶数步表示黑方,图例展示了新增黑棋的一些常见模式。UMAP 可视化表明:LDM 建模了训练集中常见的走棋模式,并能将短期和长期数据模式压缩至潜在空间中,提取并总结走棋规律。

同理,下图右侧为机械臂沿 X/Y/Z 轴运动方向可视化潜在编码,随着步数(Step)增多,也能看到 LDM 可以建模多步动态依赖关系。

图片

  • LDM 帮助模型在测试时进行前向规划。

团队还研究了 LDM 在模型推理中的价值。

如下图 UMAP 可视化所示,在测试阶段,模型生成的潜在编码按照时间步(Time-step)进行分组,使得模型能够从更长远视角进行围棋决策。

图片

在机器人场景实验中,团队也观察到了类似现象。

下图展示了 VideoWorld 在不同机器人操控任务中预测的潜在编码。不同时间步的潜在编码根据任务类型进行分组,突显了模型逐步捕捉特定任务长程变化的能力。

图片

  • LDM 可以生成因果相关的编码。 

为进一步研究潜在编码的影响,团队进行了一项干预实验:用随机标记替换不同时间步的潜在编码,并观察其对模型性能的影响。

实验结果显示,干预第一个编码的影响最大,这可能由于编码之间存在因果依赖,团队认为:改变第一个编码,即下一时间步的最佳决策,会影响所有未来的决策,侧面说明模型可生成因果相关编码,理解因果关系。

4. 写在最后 

尽管 VideoWorld 在围棋和模拟机器人操控环境中展现了卓越性能,团队同时也意识到,其在真实世界环境中的应用,仍面临着高质量视频生成和多环境泛化等挑战。

在未来,团队将着力解决这些难题,推动视频生成模型成为真实世界中的通用知识学习器。

责任编辑:庞桂玉 来源: 字节跳动技术团队
相关推荐

2023-04-03 10:04:44

开源模型

2024-11-25 10:30:00

AI视频开源

2024-10-22 09:40:00

模型生成

2024-01-29 07:50:00

AI视频

2024-09-23 15:40:00

2023-10-23 12:43:05

模型训练

2024-12-24 13:50:00

视频生成AI

2023-12-20 14:54:29

谷歌Gen-2视频

2024-11-08 09:11:24

2024-07-12 12:55:55

2024-09-10 11:21:30

2021-08-13 15:07:02

模型人工智能深度学习

2024-05-24 12:53:06

AI训练

2024-12-12 10:00:00

2023-10-11 12:32:26

模型训练

2024-12-26 11:48:27

2024-03-29 13:55:22

AI训练

2024-12-12 08:35:58

2024-02-19 07:58:01

OpenAI模型GPT
点赞
收藏

51CTO技术栈公众号