微软Muse秒生游戏登Nature,10亿级画面练出最强AI!千亿游戏市场重洗牌

人工智能 新闻
一夜之间,游戏产业要变天了!微软公布全球首个世界与人类行动模型,名为Muse,可秒生游戏画面,精准预测玩家操作。未来,游戏开发或将从数月压缩至几分钟,千亿美金游戏市场或被颠覆。

同一天,微软放出两个核弹,首个拓扑量子芯片,还有首个世界与人类行动模型。

AI离数秒生成游戏视频的未来,又近了一步。

图片

今天,微软团队首次引入了「世界与人类行动模型」(WHAM),并冠以希腊艺术女神「缪斯」(Muse)之名。

它可以生成游戏视觉效果、控制器动作,甚至可以全都要。最新研究登上Nature期刊。

图片

论文地址:https://www.nature.com/articles/s41586-025-08600-3

在相同的10帧(1秒)真实游戏玩法的条件下,Muse生成了行为和视觉多样性的样例。

同时,这也是首个基于Ninja Theory的多人对战游戏Bleeding Edge,超10亿张画面训练的GenAI模型。从单个V100集群,成功scaling到多达100个GPU上完成训练。

Muse AI强大核心在于,对3D游戏世界的深度理解。

它不仅仅是一个简单视频生成工具,而是能够精准模拟游戏中物理规则、玩家行为。

比如,当玩家按下手柄某个按键时,Muse AI可以预测游戏世界动态变化,并生成与之匹配的连贯画面。

图片

传统上,游戏开发需要数月甚至数年,进行角色设计、动画制作和游戏测试。而如今,Muse能够将这一周期从几个月缩短至几分钟。

对于游戏开发者来说,它的出现无疑是一场革命,是颠覆千亿游戏产业革命的存在。

就连马斯克在AI游戏上押下重注,据称其创办AI游戏工作室即将要官宣。

图片

图片

AI重塑游戏开发,全球30亿玩家狂欢

Muse AI诞生之前,还有这么一段精彩的故事。

2022年12月,微软研究院游戏智能团队的负责人Katja Hofmann刚刚结束产假,回到工作岗位。

她忽然发现,在自己休假这段时间里,机器学习领域发生了翻天覆地的变化——

OpenAI发布ChatGPT,这一基于Transformer架构的生成模型,展示出令人惊叹的能力,尤其是在处理大量文本数据时。

这一突破,让Hofmann开始思考,生成式AI的崛起,对于AI与视频游戏的交叉领域意味着什么?

图片

他们发现,尽管GenAI展现出巨大的潜力,但多项研究表明,其能力往往达不到创意人员的期望值。

特别是,在3D游戏开发这种高难度复杂领域,LLM的应用还面临着诸多的挑战。

众所周知,3D游戏开发是一个需要多样化创意技能的过程,会涉及到角色设计、场景构建、剧情编写、互动机制等多个方面。

在Hofmann看来,丰富且多样化的游戏玩法数据,为进一步创新提供了关键数据。

这种时间相关、多模态的数据能够探索日益复杂的任务,从而生成更高质量3D世界、与NPC互动和游戏机制。

更重要的是,游戏产业作为全球娱乐产业最大领域,已经覆盖了超30亿人口。

GenAI的出现,为世界游戏玩家们,甚至游戏工作室提供了一个绝佳的机会。

那么,微软团队是如何打造出Muse AI?

Xbox真人实战,超10亿张图像

微软的游戏智能团队,拥有非常不同的数据来源。

多年来,研究团队与Xbox游戏工作室的Ninja Theory(与游戏智能研究团队一样,位于英国剑桥)合作,收集2020年发布的Xbox游戏《Bleeding Edge》的游戏数据。

《Bleeding Edge》是一款4对4的在线游戏。经玩家同意EULA后,比赛会被记录下来。

研究团队与Ninja Theory的同事以及微软合规团队密切合作,确保数据的收集符合道德规范,并且仅用于研究目的。

图片

Bleeding Edge部分游戏角色

Ninja Theory的技术总监Gavin Costello,见证了相关研究,感到非常高兴:

在黑客马拉松中,首次将AI集成到《Bleeding Edge》中,而这只是开始:此后,从构建行为更像人类玩家的AI智能体,再到世界和人类行为(WHAM)模型在人类指导下,能够构想出全新的《Bleeding Edge》玩法。


能见证这项技术的潜力,让人大开眼界。

Muse训练数据

当前的Muse模型是在Xbox游戏《Bleeding Edge》的人类游戏玩法数据(视觉和控制器操作)上训练的。

下图左显示的是训练当前模型的300×180像素分辨率。在超过10亿张图像和控制器操作上,Muse(使用WHAM-1.6B)已经进行了训练,相当于人类连续玩7年多游戏。

下图右是相关研究团队,一起体验《Bleeding Edge》游戏。

图片

直到2022年底,游戏智能团队一直将《Bleeding Edge》视为类人导航(human-like navigation)实验平台,还没有真正利用手中大量的人类玩家数据。

在文本模型的启发下,研究团队开始思考:「如果我们使用基于transformer的模型来训练这些海量的游戏数据,我们能够取得什么样的成果?」

扩大模型训练

随着团队开始深入研究,面临的一个关键难题是如何扩大模型训练的规模。

最初,使用了一个V100集群,并成功验证了如何扩展到在多达100个GPU上进行训练。这为后续在H100上进行更大规模训练奠定了基础。在项目初期,做出了一些关键的设计决策,主要是关于如何充分利用大语言模型(LLM)社区的见解,包括如何有效地表示控制器操作和图像。

扩大训练规模努力的第一个成果是一个令人印象深刻的演示。

当时Game Intelligence的研究员Tim Pearce整理了一些训练初期与后期的对比示例。看着这些演示,就像看着模型学习一样。

这为后续展示这些模型中如何出现缩放法则奠定了基础。

Muse训练中的一致性

给模型的提示是:输入1秒的人类游戏玩法(视觉和控制器操作)和9秒的真实控制器操作。

在这种设定下,Muse如果能够生成与真实情况非常接近的视觉图像,那么它已经捕捉到了游戏动态。

随着训练的进行,观察到生成的视觉图像质量明显提高。

在早期训练(10k训练更新)中,看到了初步的成果,但质量迅速下降。

在100k训练更新后,模型在时间上保持一致,但尚未捕捉到游戏动态中相对不常见的场景,如飞行机制。

随着额外训练的进行,与真实情况的一致性继续提高。例如,在1M训练更新后,模型学懂了飞行机制。

图片

真实的人类游戏玩法(左)与Muse生成的视觉图像(使用WHAM-206M)的比较

跨学科合作:一开始就让用户参与

很早以前,研究团队就开始探索评估这类模型,比如下列3个项目:

  1. 研究实习生Gunshi Gupta和高级研究科学家Sergio Valcarcel Macua,推动了对线性探测学习到的表征的理解。
  2. 高级研究科学家Raluca Georgescu,负责探索了在线评估的方式。
  3. 研究实习生Tarun Gupta,主导了既有视觉特效又有动作的内容生成的研究。

但要系统地评估Muse,需要更广泛的见解。更重要的是,需要了解人们如何使用这些模型,以便知道如何评估它们。

这就是跨学科研究变得至关重要的地方。

研究团队已经与高级首席研究经理Cecily Morrison和Teachable AI Experiences团队合作了几个月,讨论了这项工作的各个方面。

在Cecily、设计研究员Linda Wen和首席研究软件工程师Martin Grayson推动下,团队还与游戏创作者合作,调查在创意实践中,游戏创作者希望如何使用GenAI。

Cecily说:「这是一个很好的机会,在早期阶段就联合起来,让模型满足创作者的需求,而不是试图改造已经开发的技术。」

关于如何处理这项工作,Linda提供了一些宝贵见解:

我们已经看到技术驱动的AI创新如何颠覆创意产业——通常让创作者措手不及,让许多人感到被排斥。


之所以从一开始就邀请游戏创作者,共同塑造这项技术,这就是原因。


北半球主导了AI创新。认识到这一点,我们还优先考虑招募来自代表性不足的背景和地区的游戏创作者。我们的目标是创造一个惠及所有人的技术——不仅仅是那些已经处于特权地位的人

WHAM Demonstrator解锁新创意

现在,随着模型逐渐显现的能力和用户的反馈,是时候将所有部分整合在一起了。

在微软内部的黑客马拉松中,不同团队共同合作,探索Muse可以解锁的新交互范式和创意应用场景。

最终,开发了一个原型,命名为WHAM Demonstrator,它允许用户直接与模型进行交互。

Martin 说:「全球黑客马拉松是一个完美的机会,大家齐聚一堂,构建了了第一个工作原型。我们希望为WHAM模型开发一个界面,这样就能探索它的创意潜力,并开始测试从与游戏开发者的访谈中得到的想法和应用。」

为了与诸如Muse之类的AI模型进行互动,WHAM Demonstrator提供了与WHAM实例互动的视觉接口。

用户可以探索新玩法,并进行调整,例如使用游戏控制器来控制角色。这些功能展示了 Muse 的能力如何在创作过程中支持迭代和调整,帮助用户不断优化和完善游戏体验。

模型架构与评估

使用WHAM演示器亲身体验Muse的能力,并从用户研究中获得见解,研究团队系统地确定了在使用像Muse这类生成模型时,游戏创作者所需的关键能力:一致性、多样性和持久性。

  1. 一致性:指的是模型生成游戏玩法时,能够尊重游戏的动态特性。例如,角色的移动与控制器操作一致,不会穿过墙壁,通常反映了游戏底层的物理特性。
  2. 多样性:指的是模型在给定相同的初始提示时,能够生成多种游戏玩法变体的能力。
  3. 持久性:指的是模型能够将用户修改(或「持久」)整合到生成的游戏玩法中的能力,例如将一个角色复制粘贴到游戏中。

模型架构设计

建模设计反映了识别出的模型能力,如下图所示。

  1. 一致性:一个顺序模型,能够准确捕捉游戏视觉和控制器操作之间依赖关系。
  2. 多样性:能够生成数据并保留视觉和控制器操作序列条件分布。
  3. 持久性:基于(修改过的)图像和/或控制器操作,通用条件化的预测模型得以实现。

在全部三个能力中,选择提供可扩展性的组件,这意味着模型应该从大量训练数据和计算资源中受益。

WHAM设计如图所示,它建立在transformer架构上,作为其序列预测骨干。

新方法的关键在于将数据框定为离散token序列。

为了将图像编码为令牌序列,使用VQGAN图像编码器。用于编码每张图像的令牌数量是一个关键的超参数,它在预测图像的质量、生成速度和上下文长度之间进行权衡。

对于Xbox控制器操作,尽管按钮天生是离散的,将左和右摇杆的x和y坐标离散化为11个桶。然后训练一个仅解码Transformer来预测交织的图像和控制器操作序列中的下一个token。

然后,该模型可以通过自回归采样下一个token来生成新序列。

还可以在生成过程中修改令牌,允许对图像和/或操作进行修改。也就是说控制器操作或直接编辑图像本身,可以控制(或提示)生成的能力,这评估持久性的先决条件。

图片

WHAM架构概览

一致性

通过使用真实的游戏玩法和控制器动作来提示模型,并让模型生成游戏视觉效果来评估一致性。此处展示的视频是使用Muse(基于 WHAM-1.6B)生成的,展示了模型生成长达两分钟的一致游戏玩法序列的能力。

在论文中,还使用FVD(Fréchet Video Distance,视频生成社区中一个既定的指标)将生成的视觉效果与真实的视觉效果进行了比较。


多样性

在总共102,400个动作(1,024 条轨迹,每条轨迹100个动作)中,对10,000个人类和模型动作进行子采样,并计算它们之间的距离。

重复此过程十次,并绘制平均值 ± 1个标准差。越接近人与人之间的基线越好。均匀随机动作的距离为5.3。所有模型都通过训练得到改进,并且可以通过增加动作损失的权重来进一步改进。

图片

图a:三种WHAM变体的多样性,通过与人类动作的Wasserstein距离来衡量。

在下图b中,看到行为多样性(玩家角色在生成位置附近盘旋与直接前往 Jumppad)和视觉多样性(玩家角色安装的悬浮滑板具有不同的皮肤)的示例。

图片

图b:使用相同起始上下文生成的1.6B WHAM的三个生成示例。

持久性

下列视频展示了Muse(基于WHAM-1.6B)如何保持修改的一些示例。

首先,取自原始游戏数据的一张视觉图像,然后将另一个角色的图像编辑到这张图像中。

生成的游戏序列展示了该角色是如何被融入到生成的游戏序列中的。

开源资源

与此同时,为了帮助其他研究人员,研究团队决定将开源 Muse 的权重、样本数据,并提供WHAM Demonstrator可执行文件——这是一个概念原型,提供了一个可视化界面,用于与 WHAM 模型进行交互,并支持多种方式的模型提示。

图片

项目链接:https://huggingface.co/microsoft/wham

像Muse这样的模型,能够学习到的游戏世界的丰富结构,更重要的是,新研究还展示了如何通过研究洞察来支持生成性AI模型在创意领域的应用。

责任编辑:张燕妮 来源: 新智元
相关推荐

2023-05-08 12:32:20

AI读心

2024-09-09 09:05:00

2024-07-23 13:06:53

2017-03-20 11:22:52

云计算

2024-10-15 14:00:00

AdobeAI生成

2012-09-04 10:54:05

HTML5HTML5游戏HTML5资讯

2010-03-17 09:56:37

游戏程序员

2013-08-19 09:42:44

移动教育游戏

2014-01-06 10:14:32

2013-01-15 22:43:24

手机游戏CNNIC手游

2012-02-28 11:12:46

手机游戏市场

2011-07-26 15:56:53

iPhone 游戏 启动画面

2024-08-29 13:30:00

2009-05-06 10:35:13

苹果微软掌上游戏

2022-05-26 15:03:54

芯片技术

2013-01-17 09:48:15

手机游戏移动游戏小团队

2019-08-23 12:55:03

AI微软AlphaStar

2024-11-08 15:07:14

点赞
收藏

51CTO技术栈公众号