打击李飞飞空间智能，DeepMind 造出“无限世界”Genie 2：AGI 训练场-51CTO.COM

DeepMind 今天发布了 Genie 2，一个超强的基础世界模型，可以生成各种 3D 环境，用来训练和评估具身AI 智能体。Genie 2 是 DeepMind 之前推出的 2D 世界生成模型 Genie 1 的升级版，在 3D 世界生成方面取得了显著的进步。 只需一张提示图片，就能生成一个可互动的 3D 世界，不管是人还是 AI，都能用键盘鼠标在里面玩耍！像是一个无限可能的“终极沙盒”！

相比李飞飞世界实验室发布的图片生成3D可交互的物理世界的世界模型，个人感觉谷歌的Genie 2要强很多，李飞飞世界模型文章李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”

DeepMind 认为 Genie 2 是解决 Embodied 智能体(具身智能体)训练难题的关键，它提供了一个安全且无限丰富的训练环境，有助于推动 Embodied AI 和 AGI 的发展

游戏，AI 进步的“催化剂”：

DeepMind 从创立之初就非常重视游戏在 AI 研究中的作用，从早期的 Atari 游戏到 AlphaGo、AlphaStar，再到现在的通用智能体，游戏一直是 DeepMind 研究的核心。但是，训练更通用的 Embodied 智能体，一直受限于训练环境的丰富性和多样性。现在，Genie 2 的出现，就是要解决这个问题！

Genie 2 有哪些神奇之处？

Genie 2 是一个世界模型，可以模拟虚拟世界，包括各种动作（例如跳跃、游泳等）的后果。它基于大规模视频数据集训练，并展现出各种涌现能力，例如物体交互、复杂角色动画、物理效果等。这些能力并非通过显式编程实现，而是在大规模训练中自发涌现的。 Genie 2 还拥有其他“超能力”：

1.物体的承受能力和相互作用： Genie 2可以模拟各种对象交互，例如气球爆裂、门打开和发射炸药桶

2.NPCs NPC： Genie 2 对其他智能体甚至与它们的复杂交互进行建模

3.智能响应玩家操作： 它能识别角色并正确移动，还能根据玩家采取的不同动作，生成不同的“反事实体验”，这意味着可以从同一初始帧生成不同的轨迹，这对于训练智能体非常有价值

4.超强记忆力： 即使场景不在视野中，它也能记住，并在再次出现时准确渲染

5.持续生成新内容： 它可以不断生成新的内容，并保持世界的一致性，最长可达一分钟

6.多样化的环境： 第一人称视角、等距视角、第三人称驾驶视角，想怎么玩就怎么玩

7.各种物理效果： 水、烟、重力、光照、反射，应有尽有

8.真实世界图像作为提示： Genie 2 的生成能力不仅仅局限于文字描述（text prompts），还可以通过输入真实的图片作为“提示”来生成对应的虚拟环境。这种功能扩展了模型的适配能力，让它可以直接从现实世界的图像中获取灵感，创造出动态、逼真的虚拟世界，例如模拟风中吹动的草或河流中流动的水

快速原型设计利器

Genie 2 还能快速创建各种交互式体验原型，方便研究人员快速实验新的环境，训练和测试 embodied AI 智能体。艺术家和设计师也可以用它快速创建原型，加速环境设计过程

AI 智能体在 Genie 2 中尽情玩耍

研究人员可以用 Genie 2 创建各种环境，让 AI 智能体在其中执行任务，评估它们的学习能力。DeepMind 展示了一个名为 SIMA 的智能体，它是 DeepMind 与游戏开发者合作开发的， 它可以在 Genie 2 生成的陌生环境中听从指令完成任务，这也有助于评估 Genie 2 生成环境的一致性

SIMA 代理旨在通过遵循自然语言指令来完成一系列 3D 游戏世界中的任务。在这里，我们使用 Genie 2 生成一个有两扇门（一扇蓝色门和一扇红色门）的 3D 环境，并向 SIMA 代理提供打开每扇门的指令。在此示例中，SIMA 通过键盘和鼠标输入控制虚拟人物，而 Genie 2 生成游戏帧

技术

Genie 2 是一个自回归的潜在扩散模型，基于大规模视频数据集训练。它采用类似大型语言模型的因果掩码，可以逐帧地自回归采样。 DeepMind 还开发了一个蒸馏版本的 Genie 2，可以在实时运行，但输出质量会有所降低