微软Muse秒生游戏登Nature，10亿级画面练出最强AI！千亿游戏市场重洗牌-51CTO.COM

同一天，微软放出两个核弹，首个拓扑量子芯片，还有首个世界与人类行动模型。

AI离数秒生成游戏视频的未来，又近了一步。

今天，微软团队首次引入了「世界与人类行动模型」（WHAM），并冠以希腊艺术女神「缪斯」（Muse）之名。

它可以生成游戏视觉效果、控制器动作，甚至可以全都要。最新研究登上Nature期刊。

论文地址：https://www.nature.com/articles/s41586-025-08600-3

在相同的10帧（1秒）真实游戏玩法的条件下，Muse生成了行为和视觉多样性的样例。

同时，这也是首个基于Ninja Theory的多人对战游戏Bleeding Edge，超10亿张画面训练的GenAI模型。从单个V100集群，成功scaling到多达100个GPU上完成训练。

Muse AI强大核心在于，对3D游戏世界的深度理解。

它不仅仅是一个简单视频生成工具，而是能够精准模拟游戏中物理规则、玩家行为。

比如，当玩家按下手柄某个按键时，Muse AI可以预测游戏世界动态变化，并生成与之匹配的连贯画面。

传统上，游戏开发需要数月甚至数年，进行角色设计、动画制作和游戏测试。而如今，Muse能够将这一周期从几个月缩短至几分钟。

对于游戏开发者来说，它的出现无疑是一场革命，是颠覆千亿游戏产业革命的存在。

就连马斯克在AI游戏上押下重注，据称其创办AI游戏工作室即将要官宣。

AI重塑游戏开发，全球30亿玩家狂欢

Muse AI诞生之前，还有这么一段精彩的故事。

2022年12月，微软研究院游戏智能团队的负责人Katja Hofmann刚刚结束产假，回到工作岗位。

她忽然发现，在自己休假这段时间里，机器学习领域发生了翻天覆地的变化——

OpenAI发布ChatGPT，这一基于Transformer架构的生成模型，展示出令人惊叹的能力，尤其是在处理大量文本数据时。

这一突破，让Hofmann开始思考，生成式AI的崛起，对于AI与视频游戏的交叉领域意味着什么？

他们发现，尽管GenAI展现出巨大的潜力，但多项研究表明，其能力往往达不到创意人员的期望值。

特别是，在3D游戏开发这种高难度复杂领域，LLM的应用还面临着诸多的挑战。

众所周知，3D游戏开发是一个需要多样化创意技能的过程，会涉及到角色设计、场景构建、剧情编写、互动机制等多个方面。

在Hofmann看来，丰富且多样化的游戏玩法数据，为进一步创新提供了关键数据。

这种时间相关、多模态的数据能够探索日益复杂的任务，从而生成更高质量3D世界、与NPC互动和游戏机制。

更重要的是，游戏产业作为全球娱乐产业最大领域，已经覆盖了超30亿人口。

GenAI的出现，为世界游戏玩家们，甚至游戏工作室提供了一个绝佳的机会。

那么，微软团队是如何打造出Muse AI？

Xbox真人实战，超10亿张图像

微软的游戏智能团队，拥有非常不同的数据来源。

多年来，研究团队与Xbox游戏工作室的Ninja Theory（与游戏智能研究团队一样，位于英国剑桥）合作，收集2020年发布的Xbox游戏《Bleeding Edge》的游戏数据。

《Bleeding Edge》是一款4对4的在线游戏。经玩家同意EULA后，比赛会被记录下来。

研究团队与Ninja Theory的同事以及微软合规团队密切合作，确保数据的收集符合道德规范，并且仅用于研究目的。

Bleeding Edge部分游戏角色

Ninja Theory的技术总监Gavin Costello，见证了相关研究，感到非常高兴：

在黑客马拉松中，首次将AI集成到《Bleeding Edge》中，而这只是开始：此后，从构建行为更像人类玩家的AI智能体，再到世界和人类行为（WHAM）模型在人类指导下，能够构想出全新的《Bleeding Edge》玩法。

能见证这项技术的潜力，让人大开眼界。

Muse训练数据

当前的Muse模型是在Xbox游戏《Bleeding Edge》的人类游戏玩法数据（视觉和控制器操作）上训练的。

下图左显示的是训练当前模型的300×180像素分辨率。在超过10亿张图像和控制器操作上，Muse（使用WHAM-1.6B）已经进行了训练，相当于人类连续玩7年多游戏。

下图右是相关研究团队，一起体验《Bleeding Edge》游戏。

直到2022年底，游戏智能团队一直将《Bleeding Edge》视为类人导航（human-like navigation）实验平台，还没有真正利用手中大量的人类玩家数据。

在文本模型的启发下，研究团队开始思考：「如果我们使用基于transformer的模型来训练这些海量的游戏数据，我们能够取得什么样的成果？」

扩大模型训练

随着团队开始深入研究，面临的一个关键难题是如何扩大模型训练的规模。

最初，使用了一个V100集群，并成功验证了如何扩展到在多达100个GPU上进行训练。这为后续在H100上进行更大规模训练奠定了基础。在项目初期，做出了一些关键的设计决策，主要是关于如何充分利用大语言模型（LLM）社区的见解，包括如何有效地表示控制器操作和图像。

扩大训练规模努力的第一个成果是一个令人印象深刻的演示。

当时Game Intelligence的研究员Tim Pearce整理了一些训练初期与后期的对比示例。看着这些演示，就像看着模型学习一样。

这为后续展示这些模型中如何出现缩放法则奠定了基础。

Muse训练中的一致性

给模型的提示是：输入1秒的人类游戏玩法（视觉和控制器操作）和9秒的真实控制器操作。

在这种设定下，Muse如果能够生成与真实情况非常接近的视觉图像，那么它已经捕捉到了游戏动态。

随着训练的进行，观察到生成的视觉图像质量明显提高。

在早期训练（10k训练更新）中，看到了初步的成果，但质量迅速下降。

在100k训练更新后，模型在时间上保持一致，但尚未捕捉到游戏动态中相对不常见的场景，如飞行机制。

随着额外训练的进行，与真实情况的一致性继续提高。例如，在1M训练更新后，模型学懂了飞行机制。

真实的人类游戏玩法（左）与Muse生成的视觉图像（使用WHAM-206M）的比较

跨学科合作：一开始就让用户参与

很早以前，研究团队就开始探索评估这类模型，比如下列3个项目：

研究实习生Gunshi Gupta和高级研究科学家Sergio Valcarcel Macua，推动了对线性探测学习到的表征的理解。
高级研究科学家Raluca Georgescu，负责探索了在线评估的方式。
研究实习生Tarun Gupta，主导了既有视觉特效又有动作的内容生成的研究。

但要系统地评估Muse，需要更广泛的见解。更重要的是，需要了解人们如何使用这些模型，以便知道如何评估它们。

这就是跨学科研究变得至关重要的地方。

研究团队已经与高级首席研究经理Cecily Morrison和Teachable AI Experiences团队合作了几个月，讨论了这项工作的各个方面。

在Cecily、设计研究员Linda Wen和首席研究软件工程师Martin Grayson推动下，团队还与游戏创作者合作，调查在创意实践中，游戏创作者希望如何使用GenAI。

Cecily说：「这是一个很好的机会，在早期阶段就联合起来，让模型满足创作者的需求，而不是试图改造已经开发的技术。」

关于如何处理这项工作，Linda提供了一些宝贵见解：

我们已经看到技术驱动的AI创新如何颠覆创意产业——通常让创作者措手不及，让许多人感到被排斥。

之所以从一开始就邀请游戏创作者，共同塑造这项技术，这就是原因。

北半球主导了AI创新。认识到这一点，我们还优先考虑招募来自代表性不足的背景和地区的游戏创作者。我们的目标是创造一个惠及所有人的技术——不仅仅是那些已经处于特权地位的人。

WHAM Demonstrator解锁新创意

现在，随着模型逐渐显现的能力和用户的反馈，是时候将所有部分整合在一起了。

在微软内部的黑客马拉松中，不同团队共同合作，探索Muse可以解锁的新交互范式和创意应用场景。

最终，开发了一个原型，命名为WHAM Demonstrator，它允许用户直接与模型进行交互。

Martin 说：「全球黑客马拉松是一个完美的机会，大家齐聚一堂，构建了了第一个工作原型。我们希望为WHAM模型开发一个界面，这样就能探索它的创意潜力，并开始测试从与游戏开发者的访谈中得到的想法和应用。」

为了与诸如Muse之类的AI模型进行互动，WHAM Demonstrator提供了与WHAM实例互动的视觉接口。

用户可以探索新玩法，并进行调整，例如使用游戏控制器来控制角色。这些功能展示了 Muse 的能力如何在创作过程中支持迭代和调整，帮助用户不断优化和完善游戏体验。

模型架构与评估

使用WHAM演示器亲身体验Muse的能力，并从用户研究中获得见解，研究团队系统地确定了在使用像Muse这类生成模型时，游戏创作者所需的关键能力：一致性、多样性和持久性。

一致性：指的是模型生成游戏玩法时，能够尊重游戏的动态特性。例如，角色的移动与控制器操作一致，不会穿过墙壁，通常反映了游戏底层的物理特性。
多样性：指的是模型在给定相同的初始提示时，能够生成多种游戏玩法变体的能力。
持久性：指的是模型能够将用户修改（或「持久」）整合到生成的游戏玩法中的能力，例如将一个角色复制粘贴到游戏中。

模型架构设计

建模设计反映了识别出的模型能力，如下图所示。

一致性：一个顺序模型，能够准确捕捉游戏视觉和控制器操作之间依赖关系。
多样性：能够生成数据并保留视觉和控制器操作序列条件分布。
持久性：基于（修改过的）图像和/或控制器操作，通用条件化的预测模型得以实现。

在全部三个能力中，选择提供可扩展性的组件，这意味着模型应该从大量训练数据和计算资源中受益。

WHAM设计如图所示，它建立在transformer架构上，作为其序列预测骨干。

新方法的关键在于将数据框定为离散token序列。

为了将图像编码为令牌序列，使用VQGAN图像编码器。用于编码每张图像的令牌数量是一个关键的超参数，它在预测图像的质量、生成速度和上下文长度之间进行权衡。

对于Xbox控制器操作，尽管按钮天生是离散的，将左和右摇杆的x和y坐标离散化为11个桶。然后训练一个仅解码Transformer来预测交织的图像和控制器操作序列中的下一个token。

然后，该模型可以通过自回归采样下一个token来生成新序列。

还可以在生成过程中修改令牌，允许对图像和/或操作进行修改。也就是说控制器操作或直接编辑图像本身，可以控制（或提示）生成的能力，这评估持久性的先决条件。

WHAM架构概览

一致性

通过使用真实的游戏玩法和控制器动作来提示模型，并让模型生成游戏视觉效果来评估一致性。此处展示的视频是使用Muse（基于 WHAM-1.6B）生成的，展示了模型生成长达两分钟的一致游戏玩法序列的能力。

在论文中，还使用FVD（Fréchet Video Distance，视频生成社区中一个既定的指标）将生成的视觉效果与真实的视觉效果进行了比较。

多样性

在总共102,400个动作（1,024 条轨迹，每条轨迹100个动作）中，对10,000个人类和模型动作进行子采样，并计算它们之间的距离。

重复此过程十次，并绘制平均值 ± 1个标准差。越接近人与人之间的基线越好。均匀随机动作的距离为5.3。所有模型都通过训练得到改进，并且可以通过增加动作损失的权重来进一步改进。

图a：三种WHAM变体的多样性，通过与人类动作的Wasserstein距离来衡量。

在下图b中，看到行为多样性（玩家角色在生成位置附近盘旋与直接前往 Jumppad）和视觉多样性（玩家角色安装的悬浮滑板具有不同的皮肤）的示例。

图b：使用相同起始上下文生成的1.6B WHAM的三个生成示例。

持久性

下列视频展示了Muse（基于WHAM-1.6B）如何保持修改的一些示例。

首先，取自原始游戏数据的一张视觉图像，然后将另一个角色的图像编辑到这张图像中。

生成的游戏序列展示了该角色是如何被融入到生成的游戏序列中的。

开源资源

与此同时，为了帮助其他研究人员，研究团队决定将开源 Muse 的权重、样本数据，并提供WHAM Demonstrator可执行文件——这是一个概念原型，提供了一个可视化界面，用于与 WHAM 模型进行交互，并支持多种方式的模型提示。

项目链接：https://huggingface.co/microsoft/wham

像Muse这样的模型，能够学习到的游戏世界的丰富结构，更重要的是，新研究还展示了如何通过研究洞察来支持生成性AI模型在创意领域的应用。