看了30000小时视频，谷歌模型发现不同于Sora的新方法，可与虚拟世界沉浸交互，向世界模型再进一步-51CTO.COM

撰稿丨今日晴

出品 | 51CTO技术栈（微信号：blog51cto）

当下，生成式AI的高速发展让人们已经逐渐习惯了各种可以生成文本、图像、音频乃至视频的AI工具。

而最近谷歌DeepMind推出的Genie模型则实现了一种完全不同的功能，它能将图像转化为“可交互、可玩的环境”。

DeepMind在Genie项目的公告页面上展示了许多从静态起始图像生成的简单平台风格游戏样本GIF，这些起始图像包括儿童的草图、真实世界的照片等，甚至通过ImageGen2处理过的文本提示也能生成游戏的GIF示例。

图片

1.基础世界模型

Genie提供了一种生成式AI的新范式。Genie 能够接受其从未见过的图像提示，从而让人们能够与其想象中的虚拟世界互动，实质上扮演了基础世界模型的角色。

虽然 Genie 的输出乍一看与基本 2D 游戏引擎的输出相似，但该模型实际上并不像人类游戏开发人员那样绘制精灵并编写可玩的平台游戏。相反，系统将其起始图像（或多个图像）视为视频中的帧，并在接收到特定输入时生成对整个下一帧（或多个帧）应该是什么样子的最佳猜测。

Genie在训练过程中没有使用任何动作标签，而是从大量公开可用的互联网视频数据集训练而来的。

通过这种方法，Genie模型能够在观察到有限的静态视觉信息或文本描述后，基于大量训练数据中学习到的游戏规则和动态规律，推断并生成连续的、具有互动性的游戏环境。

这意味着用户上传一张简单的图画或一段描述，Genie就能够尝试构建出一个与之相关的、可供玩家探索和交互的虚拟游戏场景。

2.无需动作标签的学习

Genie 的独特之处在于它能够专门从互联网视频中学习细粒度的控制。这是一个挑战，因为互联网视频通常没有关于正在执行哪个动作，甚至应该控制图像的哪一部分的标签。值得注意的是，Genie 不仅了解观察的哪些部分通常是可控的，而且还推断出在生成的环境中一致的各种潜在动作。

为了建立这个模型，Genie 从 200000 小时的公共互联网游戏视频开始，从“数百个 2D 游戏”中筛选出 30000 小时的标准化视频。然后，这些视频中的各个帧被标记为一个包含 2 亿个参数的模型，机器学习算法可以轻松使用该模型。

从这里开始，系统生成了一个“潜在动作模型”来预测哪种交互“动作”（即按下按钮）可以切实且一致地生成所有这些令牌中看到的逐帧变化。建立潜在动作模型后，Genie 会生成一个“动态模型”，该模型可以采用任意数量的任意帧和潜在动作，并在给定任何潜在输入的情况下生成关于下一帧应该是什么样子的有根据的猜测。最终模型在 9420 亿个令牌上训练了 107 亿个参数，尽管 Genie 的结果表明更大的模型会产生更好的结果。

之前使用生成式人工智能生成类似交互模型的工作依赖于使用“真实动作标签”或训练数据的文本描述来帮助指导他们的机器学习算法。Genie 与这项工作的区别在于它能够“在没有动作或文本注释的情况下进行训练”，只使用标记化视频帧的几个小时来推断视频背后的潜在动作。

Genie 团队在其研究论文中写道：“泛化到如此显著的[离分布]输入的能力突显了我们方法的稳健性以及大规模数据训练的价值，而如果采用真实的动作作为输入，则这样的训练方式在可行性上将受到极大挑战。”

学会控制

草图生成

图片

手臂运动

3.不得不提的重大限制

在你对仅凭粗略的草图就可以生成无尽的平台游戏感到兴奋之前，需要记住一些重要的限制。

最重要的是，该系统目前仅以每秒一帧的速度运行，这比实时播放的内容至少慢 20 到 30 倍。在几帧上显示更流畅动画的示例 GIF 只是将一系列帧拼接在一起，而这些帧需要花费一分钟的时间才能实时生成。

Genie团队承认，其系统也会像其他AI模型那样“产生不切实际的未来预测”。这一点在他们分享的一些示例GIF动画中表现得尤为明显。例如，在其中一个演示中，原本并行飞行的两只鸟突然合并成一个实体，这是违背物理规律的现象；而在另一个例子中，角色在完成简单跳跃动作后，并未遵循重力下落，而是开始漂浮起来。

这些现象表明，尽管Genie能够基于已有的游戏素材创造动态情境，但受限于其学习和理解真实世界规则的能力，它在某些情况下生成的结果可能出现逻辑上的不一致性和不真实性。

此外，你可能也注意到，Genie团队迄今为止公开展示的样本仅显示了少数几个（有时非常模糊）的动作帧，然后就会回到起点循环播放。这很可能是因为当前系统仅限于分析最多“16帧内存”，团队表示，这“使得在较长时间范围内获取一致的环境变得具有挑战性”。

换句话说，由于系统的内存限制，Genie目前生成的互动环境在超过16帧后可能会出现重复或不连贯的情况，因此无法展现出更长连续的游戏场景。

4.迈向“世界模型”的一步

尽管目前的 Genie 拥有许多的不足，但 Genie 的能力不应该被低估，尤其是它对通向“世界模型的意义”。

自Sora的出现之后，人们更加关注与好奇AI何时能从物理层面上模拟和理解环境的运作规律。Meta首席科学家LeCun坚持认为，Sora走不通“世界模型”，无论生成多么逼真的视频，都不意味着Sora理解了物理世界。

但Genie则不同，仅从一个静态图像开始，Genie 似乎能够区分玩家角色和游戏背景，因此它能了解观察对象的哪些部分通常是可控的，还能推断出在生成环境中一致的各种潜在动作。对于没有任何人工指导或动作标记帮助来解释视频训练数据的模型来说，这是一项重大的突破。

Genie 团队提到，研究人员希望这项技术可以用于“为机器人技术创建一个基础世界模型，并具有可用于各种应用的低级可控模拟”。可见，Genie技术+具身智能可能会爆发出无限的想象力。

DeepMind 的研究人员已经在展望这种强大的世界模型能力对整个人工智能领域意味着什么。DeepMind 研究科学家 Jack Parker-Holder 在X上兴奋地表示道，Genie 代表着“有了一条可行的路径来生成训练AGI所需的丰富多样性环境。”

图片

DeepMind 的 Richard Song补充说，Genie 可能会导致研究人员需要生成“训练通用（强化学习）智能体所需的大量多样化视频游戏环境”所需的“无限生成器”。

该项目也开始在谷歌之外引起轰动。Nvidia AI 研究员 Jim Fan 指出，Genie在某种程度上改进了OpenAI 的 Sora 视频模型，因为它“实际上是一个具有推断动作的正确的动作驱动的世界模型”。

无论这些预测是否成功，该项目在那些近距离观察过它的人中所产生的兴奋感都难以忽视。“当我看到这个项目时，我的反应是‘哦，这是我最近见过的最酷的项目，超级令人兴奋！‘’” DeepMind 的 Lucas Beyer写道。

图片

5.写在最后

现代认知科学认为，人类会在头脑中构建关于周围真实世界的抽象模型，即我们通常所说的“世界模型”。关于“世界模型”的问题一直是人工智能研究的焦点。然而，大模型究竟能对世界有多深的理解，引发了两极分化的激烈争论。

现在Genie诞生了。如果说Sora可以颠覆好莱坞，那么Genie让我们看到了AI正面交锋暴雪和任天堂的可能。

Tik Tok通过算法推荐内容成为了上个时代的王者。未来将至，今后的内容产和消费会是一个完全由AI掌控的时代吗？

参考链接：

https://sites.google.com/view/genie-2024/home

https://arstechnica.com/gadgets/2024/03/googles-genie-model-creates-interactive-2d-worlds-from-a-single-image/