谷歌世界模型爆发：单张图生成可玩3D世界，还要和马斯克一起做AI游戏-51CTO.COM

昨晚，世界模型向前迈出了一大步！

Google DeepMind 震撼宣布了他们的新一代世界模型 Genie 2，其可根据一张图生成可供人类或 AI 智能体游玩的无限 3D 世界。

消息发布后，好评与震惊如潮水般涌现。有人被这技术进步的速度震撼，称之为视频游戏的未来，甚至还有人看到了一切都被虚拟化的世界模型的更长远未来。

有趣的是，Genie 2 刚一发布，DeepMind CEO 哈萨比斯宣传完之后直接邀请马斯克一起来用世界模型制作 AI 游戏，马斯克居然欣然同意了：

可见 AI 大佬对于自己的技术很有信心，马斯克也很重视。

Genie 2：划时代的世界模型

Genie 2 是一个基础世界模型（foundation world model），有能力生成无限多种可控制动作、可玩的 3D 环境，而这些 3D 环境又可用于训练和评估具身智能体。

DeepMind 表示，Genie 2 只需使用单张提示图像，就能生成可供人类或 AI 智能使用键鼠输入游玩的环境。

我们知道，在 AI 研究领域，游戏扮演着一个重要角色。游戏需要玩家参与、具有不同的难度、游戏进度也易于衡量，因此成为了安全测试和推进 AI 发展的理想环境。

事实上，自 Google DeepMind 成立以来，AI 与游戏结合的研究就一直很重要。机器之心也一直在跟进报道他们在游戏相关 AI 研究中的进展，从早期的 Atari 游戏，到吸引全世界眼球的 AlphaGo 和 AlphaStar，再到他们上半年与游戏开发者合作开发的通用智能体 —— 参阅《智能体的ChatGPT时刻！DeepMind通用AI向人类玩家进化，开始理解游戏》。

但 DeepMind 也指出，训练更通用的具身智能体有一个瓶颈：难以获得足够丰富和多样化的训练环境。

Genie 2 似乎就能填补这一空白，其能创造一个用于训练和评估智能体的无限新世界。DeepMind 表示：「我们的研究还为构建交互式体验原型设计的全新创意工作流程铺平了道路。」

与李飞飞的空间智能相比如何？

前些天，我们刚刚报道了著名学者李飞飞的创业公司 World Labs 的首个项目。从描述上看，其与 Genie 2 似乎具有一样的能力，都能基于单张图像生成可交互的 3D 场景，参阅报道《刚刚，李飞飞创业首个项目引围观：单图生成交互 3D 场景，空间智能来了》。

但这两者也存在一些区别。普林斯顿AI创新中心创始人、主任，终身教授王梦迪告诉机器之心：「飞飞的 World Labs 和 Google 的 Genie2 看上去都是从一张图片生成可以交互的三维场景，但有本质区别。Genie2 还是 video diffusion（视频扩散），每一帧的生成都是 pixel prediction（像素预测），并通过额外的用户输入的 guidance（引导）来影响下一帧的概率分布。而飞飞的 World Labs 是更进一步挖掘世界的物理本质：从图片出发，估计图片中不同景物的深度和相对关系，生成了更加物理世界的 3D 环境建模，不仅仅是可互动视频。」

World Labs 的单图生成 3D 场景的效果演示

从这个描述看，李飞飞的研究项目似乎更接近真正的世界模型一些。不管怎样，这些新技术的碰撞都是进步的过程，王梦迪教授也表达了这样的期待：「期待看到更多不同技术思路的进展和对决。新范式快来吧。」

Genie 2 基础世界模型的涌现能力

到目前为止，世界模型在很大程度上局限在建模范围狭窄的领域。

在上一代 Genie 1 中，DeepMind 提出了一种生成多种 2D 世界的方法。Genie 2 则是通用性方面的一次飞跃！其可生成丰富多样的 3D 世界。

Genie 2 是一个世界模型，这就意味着它可以模拟虚拟世界，包括采取任何动作（例如跳跃、游泳等）的后果。它是在大型视频数据集上训练得到的，因此，Genie 2 与其他生成模型一样具有各种大规模涌现能力，例如物体交互、复杂角色动画、物理以及建模和预测其他智能体行为的能力。

下面展示了一些人们与 Genie 2 交互的例子。对于每个示例，模型都会使用 Imagen 3（DeepMind 最先进的文生图模型）生成的单张图像作为提示。这意味着任何人都可以用文字描述他们想要的世界，选择他们最喜欢的渲染方法，然后进入这个新创建的世界并与之互动（或在其中训练或评估 AI 智能体）。

在每个步骤中，都由一个人或智能体提供键盘和鼠标操作，Genie 2 模拟下一个观察结果。Genie 2 可以生成长达一分钟的一致世界，大多数示例持续 10-20 秒。

动作控制

Genie 2 能智能地响应键盘按键对应的动作，识别角色并正确地移动它。例如，模型必须要明白，箭头键应该移动机器人而不是树木或云。

生成反事实视频帧

Genie 2 可以从同一起始帧生成不同的轨迹，这意味着可以为训练智能体来模拟反事实体验。如下两行动图所示，每个视频都从同一帧开始，但人类玩家采取了不同的行动。

长跨度记忆

Genie 2 能够记住视野中消失的部分世界，然后在它们再次可见时准确地呈现它们。

使用新的生成内容来生成长视频

Genie 2 可以即时地生成新的合理可信内容，并在长达一分钟的时间内保持一致性的世界。

多样性环境

Genie 2 可以创建不同的视角，例如第一人称视角、等距视角或者第三人称驾驶视角。

3D 结构

Genie 2 学会了创建复杂的 3D 视觉场景。

物体可供性和交互

Genie 2 能够模拟各种物体之间的交互，例如爆破气球、打开门和用枪射击炸药桶。

角色动画

Genie 2 学会了为执行不同活动的各种角色制作动画。

NPC

Genie 2 能够模拟其他智能体，甚至与它们进行复杂的交互。

物理效果

Genie 2 能够建模水面效果。

烟雾效果

Genie 2 能够建模各种烟雾效果。

重力效果

Genie 2 能够建模各种重力效果。

照明效果

Genie 2 能够建模点式和定向照明效果。

反射效果

Genie 2 能够建模反射、绽放和彩色灯光效果。

以现实世界的图像为提示

Genie 2 还可以将现实世界的图像作为提示，比如它可以模拟风中飘动的草或流动的河水。

Genie 2 支持快速原型设计

Genie 2 可以轻松快速地为各种交互式体验制作原型，使研究人员能够快速试验新环境，从而训练和测试具身 AI 智能体。

下图用 Imagen 3 生成的不同图像作为 Genie 2 的提示图像，以模拟纸飞机、龙、鹰或降落伞飞行之间的差异，并测试 Genie 对不同化身的动画效果。

得益于 Genie 2 的分布式泛化能力，概念艺术和绘画可以转化为完全交互式的环境。这使得艺术家和设计师们能够快速制作原型，从而启动环境设计的创作，进一步加速研究。下图展示了概念艺术家制作的「研究环境概念」示例。

在世界模型中行动的 AI 智能体

通过使用 Genie 2 快速为 AI 智能体创建丰富多样的环境，研究人员还可以生成智能体在训练期间未见过的评估任务。

下图展示了与游戏开发者合作开发的 SIMA 智能体示例，该智能体通过单个图像提示来遵循 Genie 2 合成的未见过环境的指令。

提示词：第三人称开放世界探索游戏的截图。玩家扮演一名正在探索森林的冒险者。左边有一栋房子，门是红色的，右边有一栋房子，门是蓝色的。摄像机位于玩家正后方。照片级真实、沉浸式。

SIMA 智能体通过遵循自然语言指令来完成一系列 3D 游戏世界中的任务。下图中使用 Genie 2 生成一个有两扇门（蓝门和红门）的 3D 环境，并向 SIMA 智能体提供打开每扇门的指令。在该示例中，SIMA 通过键盘和鼠标输入控制化身，而 Genie 2 生成游戏帧。

另外还可以使用 SIMA 来帮助评估 Genie 2 的功能。下图中指示 SIMA 环顾四周并探索房屋后面，来测试 Genie 2 生成一致环境的能力。

虽然这项研究仍处于早期阶段，智能体和环境生成能力还有很大的改进空间，但谷歌相信 Genie 2 是解决安全训练具身智能体结构性问题的一大途径，同时也能提供迈向 AGI 所需的广度和通用性。

下图为 Imagen 3 生成的电脑游戏图像，提示词为「一张电脑游戏图片，展示了一个粗糙的石洞或矿井内部场景。观看者的位置是第三人称视角，位于玩家头像上方，向下看向头像。玩家头像是一个手持宝剑的骑士。骑士头像前面有 3 个石拱门，骑士可以选择穿过其中任何一扇门。穿过第一扇门和内部，我们可以看到隧道两旁长满了奇异的绿色植物和发光的花朵。在第二个门的内部和外部，有一条走廊，走廊上铆接着钉在洞穴墙壁上的带刺铁板，通向远处不祥的光芒。穿过第三扇门，我们可以看到一组粗糙的石阶，通往一个神秘的目的地。」

下面为根据上图生成的游戏帧。

背后的技术：扩散世界模型

作为一个自回归潜在扩散模型，Genie 2 在大型视频数据集上进行训练。在通过一个自动编码器后，视频中的潜在帧被传递到大型 transformer 动态模型中，该模型使用与大型语言模型类似的因果掩码进行训练。

在推理时，Genie 2 能够以自回归方式进行采样，逐帧采取单个动作和过去的潜在帧。谷歌使用无分类器指导（classifier-free guidance）来提高动作可控性。

本文的示例由未蒸馏的基础模型生成，以展示其多种可能性。当然也可以实时运行蒸馏版本，但输出质量会降低。

负责任地开发技术

谷歌表示，Genie 2 展示了基础世界模型在创建多样化 3D 环境和加速智能体研究方面的潜力。不过，鉴于该研究方向尚处于早期阶段，未来将继续提高 Genie 在通用性和一致性方面的世界生成能力。

与 SIMA 一样，谷歌的研究正在朝着更通用 AI 系统和智能体的方向发展，它们可以理解并安全地执行各种任务，从而对线上和现实世界中的人们提供帮助。

顺带一提，DeepMind 同时还发布了 AI 天气预测模型 GenCast，当然，它的天气预测表现也达到了当前最佳水平。

参考内容：

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/。

https://news.ycombinator.com/item?id=42317903。