关于战略人工智能的深度综述

译文 精选
人工智能
在本文中,我们将定义战略性人工智能,探讨它是什么,以及自1997年IBM的深蓝击败卡斯帕罗夫以来,它是如何发展的。我们将尝试了解一些模型的总体架构,此外还将研究大型语言模型(LLM)如何融入其中。

译者 | 朱先忠

审校 | 重楼

本文将全面探索战略性人工智能的概念、发展及相关博弈论理论,并对战略人工智能的未来发展方向提出建议。

开场白

1997年5月11日,纽约市。

这是纽约市一个美丽的春日,天空晴朗,气温攀升至20摄氏度。洋基队准备在洋基体育场迎战堪萨斯城皇家队,流浪者队在麦迪逊广场花园迎战魔鬼队。

一切似乎都平淡无奇,然而聚集在曼哈顿中城公平中心的人们即将体验到真正独特的体验。他们即将见证这一历史性事件:一台计算机将首次在标准比赛条件下击败国际象棋卫冕世界冠军。

代表人类的是加里·卡斯帕罗夫,他当时被公认为世界顶级国际象棋选手。代表机器的是深蓝——IBM开发的国际象棋计算机。在比赛的最后一局和第六局,两位选手都获得了2.5分。今天将决出胜负。

加里一开始执黑棋,但一开始就犯了一个错误,并面临深蓝的强大而激进的攻击。仅仅19步之后,一切就结束了。卡斯帕罗夫感到士气低落,压力重重,他认为自己的地位无法维持,于是辞职了。这是一个具有象征意义的时刻,许多人称赞这是人与机器之间最重要的时刻之一。这一里程碑事件标志着人工智能发展的转折点,凸显了战略人工智能的潜力和挑战。

简介

作者使用Canva Magic Studio生成的图像

受生成式人工智能最近的进步以及我自己对大型语言模型及其战略能力的实验的启发,我越来越多地思考战略人工智能的问题。过去我们是如何尝试处理这个话题的?在我们拥有一个更多面手的战略人工智能代理之前,面临哪些挑战和需要解决的问题?

作为数据科学家,我们越来越多地为客户和雇主实施人工智能解决方案。对于整个社会来说,与人工智能日益增长的互动使得了解人工智能的发展,特别是战略人工智能变得至关重要。一旦我们拥有能够在战略环境中很好地操纵的自主代理,这将对每个人都会产生深远的影响。

但是,当我们提及战略性人工智能时,我们到底是什么意思呢?从本质上讲,战略性人工智能涉及机器做出决策,这些决策不仅考虑潜在的行动,还预测和影响他人的反应。这是关于在复杂、不确定的环境中最大化预期结果。

在本文中,我们将定义战略性人工智能,探讨它是什么,以及自1997年IBM的深蓝击败卡斯帕罗夫以来,它是如何发展的。我们将尝试了解一些模型的总体架构,此外还将研究大型语言模型(LLM)如何融入其中。通过了解这些趋势和发展,我们可以更好地为自主AI代理融入社会的世界做好必要的准备。

定义战略性人工智能

作者使用Canva Magic Studio生成的图像

围绕战略人工智能的更深入讨论始于对该主题的明确定义。

当我们在商业环境中考虑战略时,我们往往倾向于将其与长期思维、资源分配和优化、对组织内部相互依赖的全面理解、决策与公司目的和使命的一致性等主题联系起来。虽然这些主题很有用,但在处理人工智能和自主代理时,我通常更喜欢对战略进行更具博弈论意义的定义。在这种情况下,我们将战略性定义为:

“选择一个行动方案,不仅要考虑你自己的潜在行动,还要考虑其他人对这些行动的反应,以及你的决定如何影响环境的整体动态,从而最大限度地提高你的预期回报。”

这个定义的关键部分是,战略选择不是在真空中发生的,而是在其他参与者的背景下发生的,无论是人类、组织还是其他人工智能。这些其他实体可能有相似或相互冲突的目标,也可能试图采取战略行动来促进自己的利益。

此外,战略选择总是寻求最大化预期回报,无论这些回报是金钱、效用还是其他价值衡量标准。如果我们想纳入与战略相关的更传统的“商业”主题,我们可以想象,我们希望在10年后使公司的价值最大化。在这种情况下,为了制定一个好的战略,我们需要采取“长期”的眼光,也可能考虑公司的“目的和使命”,以确保与战略保持一致。然而,追求这些努力仅仅是战略行动实际意义的结果。

战略的博弈论观点抓住了战略决策的本质,因此让我们清楚地定义了战略人工智能的含义。从定义中我们可以看出,如果一个人工智能系统或代理要采取战略行动,它需要具备一些核心能力。具体而言,它需要能够:

  • 对其他代理进行建模(使用预测技术或概率推理;这些代理可以是来自人类、人工智能或组织的任何产品)。
  • 根据预期效用优化操作。
  • 在他们收集有关其他代理策略的新信息时,动态适应。

目前,还没有一个众所周知或公开的系统能够在现实世界中以自主的方式执行所有这些操作。然而,鉴于人工智能系统的最新进展和LLM的迅速崛起,这种情况可能即将改变!

博弈论中的其他重要概念

作者使用Canva Magic Studio生成的图像

在我们进一步讨论战略人工智能之前,回顾博弈论中的一些概念和想法可能是有用的。围绕战略人工智能所做的许多工作都以博弈论概念为基础,使用博弈论中的定理可以证明某些属性的存在,这些属性使一些博弈和情况比其他博弈和情况更容易处理。它还有助于突出博弈论在现实世界情况下的一些缺点,并突出我们最好从其他方向寻找灵感的地方。

什么是博弈?

我们将博弈定义为一个由三个关键部分组成的数学模型:

  • 玩家:做出决策的个人或实体。
  • 策略:每个玩家可以采取的可能行动或计划。
  • 回报:每个玩家根据所选策略获得的奖励或结果。

这种正式结构允许对战略互动和决策过程进行系统研究。

有限与无限博弈

在谈论博弈时,首先了解有限博弈和无限博弈之间的区别也是有意义的。

有限博弈有一组固定的玩家、定义好的规则和明确的终点。有限博弈的目标就是赢,这方面的例子包括国际象棋、围棋、跳棋和大多数传统的棋盘博弈。

另一方面,无限博弈没有预先确定的终点,规则可以随着时间的推移而演变。无限博弈的目标不是赢,而是继续比赛。商业竞争或社会进化等现实世界场景就可以被视为无限的博弈。冷战可以被视为一个无限博弈的例子。这是美国及其盟友(西方)和苏联及其盟友(东方)之间长期的地缘政治斗争。冲突没有固定的终点,策略和规则随着时间的推移而演变。

子博弈

有时,我们可以在更大的博弈环境中找到更小的博弈。从数学上讲,子博弈本身就是自包含的博弈,需要满足一些不同的标准:

  • 子博弈是从玩家确切知道自己在游戏中的位置开始的。
  • 子博弈包括从那时起可能采取的一切行动和结果。
  • 子博弈涵盖了与这些行动相关的所有参与者的知识和不确定性。

如果我们想象一棵代表整个博弈的大树,我们就可以形象化一个子博弈。子博弈就像从某个点(节点)开始选择这棵树的一个分支,并包括从该点延伸的所有内容,同时确保任何不确定性都在这个分支中得到充分体现。

子博弈背后的核心思想使其对我们关于战略人工智能的讨论非常有用。原因主要是,玩家之间的一些无限博弈可能非常复杂,难以建模,而如果我们选择在该博弈中查看较小的博弈,我们可以更成功地应用博弈论分析。

回到我们的例子,冷战是一个无限的博弈,我们可以在这个背景下识别出几个子博弈。下面是一些代表性的例子:

1962年古巴导弹危机:

  • 玩家:美国和苏联。
  • 战略:美国考虑了从外交谈判到军事入侵的各种选择,而苏联则不得不决定是拆除导弹还是升级对抗。
  • 回报:避免核战争,维护全球形象和战略军事定位。

柏林封锁和空运(1948-1949):

  • 玩家:西方盟国和苏联。
  • 战略:苏联封锁了柏林,将盟军赶出,而盟军则不得不在放弃这座城市或通过空中补给之间做出决定。
  • 回报:控制柏林,展示政治决心,影响欧洲联盟。

当然,尽管处理起来非常困难和复杂,但这两个“子博弈”比整个冷战更容易分析和制定应对措施。他们有一套明确的参与者,一套有限的策略和回报,还有一个更清晰的时间框架。这使得它们更适用于博弈论分析。

在战略人工智能的背景下,分析这些子博弈对于开发能够在复杂动态环境中做出最佳决策的智能系统至关重要。

双人博弈

双人博弈只是两个玩家之间的博弈。例如,这可能是两个棋手之间的博弈,或者回到我们的冷战例子——西方对东方。游戏中只有两名玩家的情形简化了分析,但仍然可捕捉到基本的竞争或合作动态。博弈论中的许多结果都是基于两人博弈。

零和博弈

零和博弈是博弈的一个子集,其中一个玩家的收益是另一个博弈玩家的损失。总收益保持不变,玩家之间存在直接竞争。

纳什均衡与最优行为

纳什均衡(NE)是一组策略,假设其他参与者保持不变,任何参与者都不能通过单方面改变自己的策略来获得额外的利益。在这种状态下,每个玩家的策略都是对其他玩家策略的最佳回应,从而导致稳定的结果,没有玩家有偏离的动机。

例如,在游戏《石头剪刀》(RPS)中,NE是所有玩家随机玩石头、布和剪刀的状态,每个玩家都有相等的概率。如果你作为一名玩家选择玩NE策略,你可以确保没有其他玩家可以利用你的游戏,在双人零和博弈中,可以证明你不会在预期中失败,你能做的最糟糕的事情就是收支平衡。

然而,玩NE策略可能并不总是最佳策略,特别是如果你的对手以可预测的次优方式玩。考虑一个有两个玩家A和B的场景。如果玩家B开始玩更多的纸,玩家A可以识别出这一点,并增加其玩剪刀的频率。但是,B可以再次利用与A的这种偏差,从而改变策略并出更多石头。

关于战略性人工智能的关键要点

回顾博弈论概念,子博弈的概念似乎对战略人工智能特别有用。在更大的背景下找到可能更小、更容易分析的博弈的能力,使应用已知的解决方案和求解器变得更加容易。

例如,假设你正在努力发展你的职业生涯,这可以被归类为一个无限的博弈,很难“解决”,但突然间你有机会谈判一份新合同。这个谈判过程为你的职业生涯中的一个子博弈提供了机会,对于使用博弈论概念的战略人工智能来说,这将更容易接近。

事实上,数千年来,人类一直在我们的生活中创造子博弈。大约1500年前,在印度,我们创造了现在被称为国际象棋的起源。国际象棋对人工智能来说是一个相当大的挑战,但也让我们开始开发更成熟的工具和技术,可用于更复杂、更困难的战略情况。

博弈中的战略人工智能简史

作者使用Canva Magic Studio生成的图像

博弈为开发战略性人工智能提供了一个令人惊叹的试验场。博弈的封闭性使其比开放式系统更容易训练模型和开发解决方案技术。博弈有明确的定义;参与者是众所周知的,回报也是如此。最早的里程碑之一是深蓝,这台机器击败了国际象棋世界冠军。

早期里程碑:深蓝

深蓝是IBM在20世纪90年代开发的一台下棋超级计算机。正如本文开始所述,1997年5月,它在六局比赛中击败了卫冕世界国际象棋冠军加里·卡斯帕罗夫,创造了历史。深蓝采用了专门的硬件和算法,每秒能够评估2亿个国际象棋位置。它将暴力搜索技术与启发式评估函数相结合,使其能够比任何以前的系统更深入地搜索潜在的移动序列。深蓝的特别之处在于它能够快速处理大量的位置,有效地处理国际象棋的组合复杂性,并标志着人工智能的一个重要里程碑。

然而,正如加里·卡斯帕罗夫在接受莱克斯·弗里德曼采访时所指出的那样,深蓝比其他任何产品都更像是一台蛮力机器,所以可能很难将其定性为任何类型的智能。搜索的核心基本上只是试错。说到错误,它比人类犯的错误少得多,据卡斯帕罗夫说,这是它难以被击败的特征之一。

复杂博弈的进步:AlphaGo

在深蓝在国际象棋中获胜19年后,谷歌DeepMind的一个团队开发了另一个模型,这将为人工智能历史上的一个特殊时刻做出贡献。2016年,AlphaGo成为第一个击败世界冠军围棋选手李世石的人工智能模型。

围棋是一种非常古老的棋盘游戏,起源于亚洲,以其高度的复杂性和大量的可能位置而闻名,远远超过了国际象棋。AlphaGo将深度神经网络与蒙特卡洛树搜索相结合,使其能够有效地评估位置和规划移动。AlphaGo推理的时间越长,它的表现就越好。

人工智能在人类专家游戏的数据集上进行训练,并通过自我游戏进一步改进。AlphaGo的独特之处在于它能够处理围棋的复杂性,利用先进的机器学习技术在以前被认为难以掌握人工智能的领域实现超人的表现。

有人可能会说,AlphaGo比深蓝表现出更多的智慧,因为它具有深入评估棋盘状态和选择动作的卓越能力。2016年对阵李世石的比赛中的第37步就是一个经典的例子。对于那些熟悉围棋的人来说,这是第五行的肩侵,最初让包括李世石本人在内的评论员感到困惑。但后来很明显,这一举动是一场精彩的比赛,展示了AlphaGo将如何探索人类玩家可能忽视和无视的策略。

结合国际象棋和围棋:AlphaZero

一年后,谷歌DeepMind再次成为头条新闻。这一次,他们从AlphaGo学到了很多知识,并创建了AlphaZero,它更像是一个掌握国际象棋、围棋和将棋的通用人工智能系统。研究人员能够在没有人类先验知识或数据的情况下,仅通过自我游戏和强化学习来构建人工智能。与依赖于手工制作的评估函数和广泛的开放库的传统国际象棋引擎不同,AlphaZero使用了深度神经网络和一种将蒙特卡洛树搜索与自学习相结合的新算法。

该系统从基本规则开始,通过与自己玩数百万个游戏来学习最佳策略。AlphaZero的独特之处在于它能够发现创造性和高效的策略,展示了一种利用自我学习而非人类工程知识的人工智能新范式。

速度与战略的融合:《星际争霸II》

谷歌DeepMind团队继续在人工智能领域占据主导地位,将重点转向了一款非常受欢迎的电脑游戏《星际争霸II》。2019年,他们开发了一种名为AlphaStar(【参考文献2】)的人工智能,能够实现大师级游戏,在竞争排行榜上的排名高于99.8%的人类玩家。

《星际争霸II》是一款实时战略游戏,为DeepMind的团队带来了几个新颖的挑战。游戏的目标是通过收集资源、建造建筑和集结可以击败对手的军队来征服对手。这款游戏的主要挑战来自需要考虑的巨大动作空间、实时决策、战争迷雾造成的部分可观察性以及长期战略规划的需要,因为有些游戏可以持续数小时。

通过构建为以前的人工智能开发的一些技术,比如通过自我游戏和深度神经网络进行强化学习,该团队能够制作出一个独特的游戏引擎。首先,他们使用监督学习和人类游戏训练了一个神经网络。然后,他们用它来播种另一种算法,该算法可以在多智能体游戏框架中与自己对抗。DeepMind团队创建了一个虚拟联盟,在这个联盟中,智能体可以探索彼此对抗的策略,并对占主导地位的策略进行奖励。最终,他们将联盟的策略组合成一个超级策略,可以有效地对抗许多不同的对手和策略。用他们自己的话说(【参考文献3】):

“最终的AlphaStar代理由联盟纳什分布的组件组成;换句话说,是已经发现的最有效的策略组合,在单个桌面GPU上运行。”

深入了解Pluribus和扑克

我喜欢玩扑克,当我在特隆赫姆生活和学习时,我们每周都会有一场游戏,相当激烈!最后一个被战略性人工智能超越的里程碑是扑克游戏。具体来说,是扑克游戏中最受欢迎的形式之一,6人无限注德州扑克。在这个游戏中,我们使用一副有52张牌的普通牌,游戏结构如下:

  • 翻牌前:所有玩家都会得到2张牌(底牌),只有他们自己知道牌值。
  • 翻牌:抽出3张牌并面朝上放置,以便所有玩家都能看到它们。
  • 转牌:抽出另一张牌并面朝上放置。
  • 河牌:抽出最后一张第五张牌并面朝上放置。

玩家可以使用桌上的牌和手中的两张牌来组成一手5张牌的扑克牌。在游戏的每一轮中,玩家轮流下注,如果一名玩家下注而其他人都不愿意跟注,游戏可以在任何一轮结束。

虽然学习起来相当简单,但人们只需要知道各种玩家的层次结构,尽管几十年来一直在努力,但事实证明,这个游戏很难用人工智能来解决。

有多个因素导致了解决扑克牌的难度。首先,我们有一个隐藏信息的问题,因为你不知道其他玩家有哪些牌。其次,我们有一个多人游戏设置,有很多玩家,每个额外的玩家都会成倍增加可能的互动和策略的数量。第三,我们有无限制的下注规则,这允许一个复杂的下注结构,一个玩家可以突然决定下注他的全部筹码。第四,由于底牌、公共牌和下注序列的组合,我们的游戏树复杂性非常大。此外,由于牌的随机性、虚张声势的可能性和对手建模,我们的复杂性也很高!

直到2019年,Noam Brown和Tuomas Sandholm这两位研究人员才最终破解了密码。在《科学》杂志发表的一篇论文中,他们描述了一种新型的扑克人工智能——Pluribus——在6层无限制德州扑克中击败了世界上最好的玩家(【参考文献4】)。他们进行了两个不同的实验,每个实验由10000个扑克手组成,这两个实验都清楚地表明了Pluribus的主导地位。

在第一个实验中,Pluribus与5名人类对手比赛,平均获胜率为4800mbb/场,标准差为2500mbb/局。(mbb/game代表每场比赛中的每场百万大盲注,即每1000场比赛中赢得多少个大盲注。)4800mbb/场被认为是一个非常高的获胜率,尤其是在精英扑克玩家中,这意味着Pluribus比人类对手更强。

在第二个实验中,研究人员让5个版本的Pluribus对战1个人。他们设置了这个实验,让两个不同的人分别与5台机器玩5000手牌。Pluribus最终以平均3200mbb/场的成绩击败了人类,标准误差为1500mbb/局,再次显示了其战略优势。

Pluribus的统治地位非常惊人,特别是考虑到研究人员必须克服的所有复杂性。Brown和Sandholm提出了几个聪明的策略,帮助Pluribus成为超人,在计算上比以前的顶级扑克AI更高效。他们的一些技术包括:

  • 使用两种不同的算法来评估移动。他们将首先使用所谓的“蓝图策略”,该策略是通过使用蒙特卡洛反事实后悔最小化方法让程序自我对抗而创建的。这种蓝图策略将在第一轮投注中使用,但在随后的投注轮中,Pluribus会进行实时搜索,以找到更好、更精细的策略。
  • 为了使其实时搜索算法在计算上更高效,他们将使用深度限制搜索,并评估对手可能选择的4种不同策略。首先,他们将评估每种策略的未来两步。此外,他们只会为对手评估四种不同的策略,包括原始蓝图策略、偏向折叠的蓝图策略、倾向召唤的蓝图策略和偏向提高的最终蓝图策略。
  • 他们还使用了各种抽象技术来减少可能的游戏状态的数量。例如,由于9高顺子与8高顺子基本相似,因此可以以类似的方式观察它们。
  • Pluribus将连续投注空间离散化为一组有限的桶,从而更容易考虑和评估各种投注规模。
  • 此外,Pluribus还平衡了其策略,即对于它正在玩的任何给定手牌,它也会考虑在这种情况下可能拥有的其他手牌,并评估它将如何玩这些手牌,以便最终的游戏是平衡的,从而更难对抗。

从Pluribus中可以得出很多有趣的观察结果,但也许最有趣的是,它并没有改变对不同对手的打法,而是开发了一种强大的策略,对各种各样的玩家都有效。由于许多扑克玩家认为他们必须根据不同的情况和人调整自己的游戏,Pluribus向我们表明,考虑到它如何击败所有与之对抗的人,这是不必要的,甚至可能不是最佳的。

在我们对博弈论的短暂探索中,我们注意到,如果你在双人零和博弈中玩NE策略,你保证不会在预期中失败。然而,对于像6人扑克这样的多人游戏,没有这样的保证。诺姆·布朗推测,也许是扑克这种游戏的对抗性仍然适合尝试用NE策略来接近它。相反,在像Risk这样的游戏中,玩家可以更多地合作,追求NE策略并不能保证奏效,因为如果你和6个人玩一个风险游戏,如果你的5个对手决定联合起来杀死你,你什么也做不了。

评估战略人工智能的发展趋势

总结博弈中战略人工智能的历史,我们看到一个明显的趋势正在出现。这些博弈正在慢慢但肯定地变得更接近人类每天所处的现实世界战略环境。

首先,我们正在从双人模式转向多人模式。从双人博弈的最初成功到6人扑克等多人博弈,都可以看出这一点。其次,我们看到对隐藏信息博弈的掌握有所增加。第三,我们还看到,对具有更多随机元素的博弈的掌握程度有所提高。

隐藏信息、多人博弈设置和随机事件是人类之间战略互动的常态,而不是例外,因此掌握这些复杂性是实现能够在现实世界中导航的更通用的超人战略人工智能的关键。

大型语言模型与战略性人工智能

作者使用Canva Magic Studio生成的图像

我最近做了一个实验,让大型语言模型(LLM)互相玩棋盘游戏《风险》。我做这个实验的目的是衡量LLM在战略环境中的表现,更多的是开箱即用。向代理人提供了相当多的详细提示,以提供正确的背景,然而,也许并不奇怪,LLM的表现相当平庸。

你可以在链接处找到一篇关于这个实验的文章《在风险博弈环境中探索LLM的战略能力》(在模拟的风险环境中,Anthropic、OpenAI和Meta的大型语言模型展示了不同的战略……)

总结一下实验中的一些关键发现,当前这一代的LLM在防御和识别获胜动作等基本战略概念上遇到了困难。它们也未能消除其他参与者,而这样做在战略上对它们有利。

上述实验表明,尽管我们已经看到LLM的快速改进,但它们仍然缺乏战略推理的复杂性。鉴于它们非常通用的训练数据以及它们是如何构建的,这不应该令人惊讶。

那么,它们如何融入围绕战略人工智能的讨论呢?要理解这一点,我们需要了解LLM真正擅长的是什么。也许LLM最有希望的特点是它们能够消化和生成大量文本。现在有了多模式模型,视频和音频也是如此。换句话说,LLM非常适合在人类和其他环境中与现实世界互动。最近,Meta的一个人工智能团队能够将语言模型的通用语言能力与战略引擎的战略洞察力相结合。

案例研究:《西塞罗》与《外交》游戏

《外交》游戏是一个2到7人的策略游戏,Meta将其描述为风险、扑克和电视节目《幸存者》的混合体。玩家从1900年左右的欧洲地图开始,目标是控制大多数供应中心。具体来说,玩家的目标是控制34个供应中心中的18个,以取得胜利。通过这样做,玩家可以有效地控制地图,代表了他们的国家在第一次世界大战前对欧洲的优势。

《外交》游戏与我们迄今为止讨论的许多其他游戏的不同之处在于它依赖于玩家之间的谈判。这是一种比扑克更需要合作的游戏形式。每个玩家在每次回合之前都会使用自然语言与其他玩家交流,并制定彼此结盟的计划。当准备工作完成时,所有玩家同时透露他们的计划,然后执行回合。这种类型的游戏显然比大多数其他棋盘游戏更接近实际的外交和现实生活中的谈判,但由于自然语言成分,人工智能很难掌握。

这种情况在2022年发生了变化,当时Meta的人工智能团队开发了西塞罗(Cicero)。Cicero利用语言建模的最新进展,结合战略模块,是一个游戏引擎,能够实现“人类玩家平均得分的两倍以上,并在玩过多个游戏的参与者中排名前10%”。正如Meta所描述的那样,他们的模型能够产生基于战略的对话,并生成一个具有对话意识的策略。

《西塞罗》与其他战略AI模型的差异

《外交》游戏和其他一些我们最近在人工智能方面取得战略进步的游戏之间有一些关键区别。最值得注意的是游戏的合作性质——与其他游戏的对抗性质相比——以及它使用的开放式自然语言格式。我认为这些差异使游戏更像真实的人际互动,但也限制了研究人员如何训练为西塞罗提供动力的算法。

与Pluribus和AlphaZero不同,西塞罗主要不是通过自我游戏和强化学习来训练的。相反,Meta团队使用了一个包含125000多个游戏和40000000条消息的数据集来帮助训练算法。他们认为,考虑到游戏的谈判、说服和建立信任方面,如果他们让人工智能通过自我游戏与自己谈判,他们可能会看到奇怪的行为,而且它可能无法捕捉到人类互动的本质。引用他们的研究文章:

“…我们发现,在2p0s版本的游戏中实现超人性能的自玩算法在有多个人类玩家的游戏中表现不佳,因为学习的策略与潜在人类盟友的规范和期望不一致。”

然而,强化学习被用来训练策略引擎的一部分,特别是用来训练西塞罗的价值函数——它需要预测其行为的效用。研究人员使用了行为克隆的改进版本piKL,该版本旨在最大限度地提高动作的预期效用,同时尽量减少与人类行为的差异。简而言之,他们希望该模型能够找到具有战略意义的合理动作,同时保持与人类动作的接近。

外交的上述特征突出了与创建可以在现实世界的人类环境中运行的战略人工智能相关的一些重要问题,在我们评估战略人工智能将如何发展时需要考虑这些问题。

战略人工智能的未来

作者使用Canva Magic Studio生成的图像

预测未来总是很棘手;然而,一种方法可以是利用当前的趋势并推断出未来的情景。下面,我们调查了一些与我们之前的讨论密切相关的话题,并评估了它们如何影响战略人工智能的未来。

通用符号策略引擎与专用模块

如果我们研究迄今为止战略AI引擎的发展轨迹,我们会发现每个游戏引擎的专业性都令人印象深刻。尽管架构可能相似(例如AlphaZero学习如何玩多种不同的游戏),但AI仍然会针对每款特定游戏与自己进行数百万次游戏。对于国际象棋,AlphaZero玩了4400万场,而对于围棋,玩了1.3亿场!(【参考文献7】)一个自然而然的问题是,我们是否应该尝试构建更通用的策略引擎,还是继续专注于特定任务的专用模块?

通用策略引擎旨在理解和应用不同情况下的广泛战略原则。也许通过创建能够捕捉人类战略互动许多方面的游戏,AI可以通过与自己对弈来学习并制定适用于现实世界场景的策略。这种方法可以帮助AI概括其学习,使其在各种情况下都很有用。

另一方面,专用模块是为特定场景或任务设计的人工智能系统。我们可以设想,通过结合多个专业代理,我们可以创建一个通用的战略人工智能。人工智能代理经过训练,可以在每个特定领域都表现出色,在最需要的地方提供深厚的专业知识。虽然这种方法可能会限制人工智能的泛化能力,但它可以确保特定领域的高性能,从而更快地实现实际应用。

考虑到在合作环境中使用AI进行自我游戏的问题(正如我们在外交中观察到的那样),以及目前的趋势似乎倾向于针对不同战略情况使用专用模块,在不久的将来,我们可能会为不同的环境提供专用战略模块。然而,我们也可以设想一个混合系统,在这个系统中,我们使用通用战略引擎来提供对更广泛主题的洞察,而专用模块则处理复杂、具体的挑战。这种平衡可以让AI系统应用一般战略洞察,同时适应特定情况的细节。

LLMs弥合战略模块和现实世界应用之间的差距

大型语言模型改变了人工智能与人类语言的交互方式,提供了一种将战略人工智能模块与现实世界用例连接起来的强大方式。LLM擅长理解和生成类人文本,使其成为理想的中介,可以将现实世界的情况转化为战略引擎可以处理的结构化数据。正如Meta的《西塞罗》游戏所示,将LLM与战略推理相结合,使人工智能能够理解人类在协作环境中的沟通、协商和计划行动。

鉴于当前多模态模型的趋势,LLM不仅能够将文本,而且能够将任何现实世界的上下文翻译成机器可读的语法。这使得模型作为中介更有用。

如果我们以《西塞罗》游戏的想法为基础,我们还可以设想为特定任务(如外交沟通)微调不同的语言模型,也许是通过微调历史外交信函的模型,然后训练单独的战略引擎来提出最佳行动。

人类与人工智能的协作:Centaur模型

战略人工智能的未来不仅仅是机器接管决策;在过渡时期,这也是人类和人工智能有效合作的问题。这种合作关系通常被称为“半人马模型”,将人类直觉与人工智能的计算能力相结合。在这个模型中,人类带来了创造力、道德判断和灵活性,而人工智能系统提供了强大的数据处理和战略原则的一致应用。

这种模型的现实世界例子包括人类人工智能团队超越人类或单独工作的机器的领域。例如,在国际象棋中,加里·卡斯帕罗夫提出了与人工智能合作的想法,将人类的战略洞察力与人工智能的精确计算相结合。半人马模型似乎在国际象棋中运行良好,直到程序开始变得非常好。在那一点上,人类的贡献毫无价值,在最坏的情况下是有害的。

然而,在比国际象棋更开放、更像现实世界的其他领域,半人马模型可能是一个不错的选择。简单地考虑一下,人类与现代LLM的合作如何有可能大大提高生产力。

这种协作方法通过将人类判断与人工智能分析相结合来改善决策,可能会带来更明智和平衡的结果。它允许快速适应新的和意外的情况,因为人类可以在人工智能的支持下实时调整策略。

游戏之外的现实世界应用

游戏一直是开发战略性人工智能的绝佳试验场,但真正的影响来自将这些进步应用于现实世界的挑战。下面我们重点介绍几个例子。

在过去几年中,自动驾驶汽车领域取得了巨大的发展,以及它们如何利用战略性人工智能安全地驾驶道路。他们必须预测并响应其他司机、行人和骑自行车的人的行为。例如,自动驾驶汽车需要预测行人是否即将过马路,或者另一名驾驶员是否即将意外变道。

就在今年,Waymo——一家开发自动驾驶汽车和叫车服务的公司——开始在美国三个城市使用完全自动驾驶的出租车:亚利桑那州的凤凰城,以及加利福尼亚州的洛杉矶和旧金山。在未来几年,由于战略人工智能的改进,我们可能会看到全自动驾驶汽车的大幅增长。

在金融市场中,人工智能驱动的交易系统分析大量数据以做出投资决策。这些系统考虑了其他市场参与者(如交易员和机构)的可能行为,以预测市场走势。他们使用战略推理来执行交易,以最大限度地提高回报,同时最大限度地降低风险,通常是在高度动荡的环境中。

人工智能系统还通过考虑供应商、竞争对手和客户的行为来优化供应链。他们可以根据预期的需求和竞争对手的行为,战略性地调整生产计划、库存水平和物流。例如,如果竞争对手预计将推出新产品,人工智能可以建议增加库存水平以满足潜在的需求增长。

战略人工智能也被用于高效管理能源分配。智能电网利用人工智能来预测消费模式并相应地调整供应。他们考虑消费者如何根据定价信号或环境因素改变使用方式。人工智能战略性地分配资源以平衡负载、防止中断和整合可再生能源。

上面的例子清楚地表明了战略性人工智能是如何被整合到各个行业和领域的。通过考虑他人的行为,这些人工智能系统可以做出明智的决策,优化结果,提高效率,并经常提供竞争优势。随着战略性人工智能的不断改进,这些系统也将不断改进,我们可能会看到它们在许多其他领域的出现。

结论

作者使用Canva Magic Studio生成的图像

自从深蓝战胜加里·卡斯帕罗夫以来,战略人工智能已经取得了长足的进步。从掌握复杂的棋盘游戏到参与类似人类的谈判,人工智能系统越来越多地表现出战略推理能力。

在本文中,我们研究了战略人工智能的基本概念,强调了博弈论的重要性以及该领域的一些概念如何应用于战略人工智能。我们还研究了专门的人工智能系统如何通过专注于狭窄的领域和广泛的自我游戏,在特定的游戏中取得超人的表现。这就提出了一个问题,即战略人工智能的未来是开发能够更广泛应用的通用符号战略引擎,还是继续开发针对特定任务量身定制的专用模块。

正如我们在《西塞罗》游戏身上看到的那样,语言模型在战略人工智能领域也可能有未来。OpenAI、Anthropic和Meta等提供商的新模型使将这些工具集成到自主代理中比以往任何时候都更容易,这些代理可以使用它们将现实世界转换为人工智能系统可以处理的结构化数据。

然而,通往能够驾驭现实世界复杂性的通用战略人工智能的旅程才刚刚开始。在开发能够跨领域推广、适应不可预见的情况并将伦理考虑纳入决策过程的系统方面仍然存在挑战。

参考文献

1. Lex Fridman(2019年10月27日)。《Garry Kasparov: Chess, Deep Blue, AI, and Putin | Lex Fridman Podcast #46 [Video File]》。Youtube:https://youtu.be/8RVa0THWUWw?si=1ErCnwlAn4myoK9W

2. Vinyals, O., Babuschkin, I., Czarnecki, W.M.等人。《Grandmaster level in StarCraft II using multi-agent reinforcement learning》。《自然》杂志,2019年,第575,350–354页。网址:https://doi.org/10.1038/s41586-019-1724-z

3. https://deepmind.google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii/

4. Brown等人,(2019年8月30日)。《Superhuman AI for multiplayer poker》,《科学》杂志,2019年,第365,885–890页。网址https://www.science.org/doi/epdf/10.1126/science.aay2400

5. Lex Fridman(2019年12月6日)。《Noam Brown: AI vs Humans in Poker and Games of Strategic Negotiation | Lex Fridman Podcast #344 [Video File]》。Youtube:https://youtu.be/2oHH4aClJQs?si=AvE_Esb42GNGIPRG

6. Meta Fundamental AI Research Diplomacy Team (FAIR)†等,《Human-level play in the game of Diplomacy by combining language models with strategic reasoning》,《科学》杂志,2022年,第378,1067–1074页。DOI:10.1126/science.ade9097,https://noambrown.github.io/papers/22-Science-Diplomacy-TR.pdf

7. David Silver等人,《A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play》。《科学》杂志,2018年,第362,1140–1144页。DOI:10.1126/science.aar6404,网址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphazero-shedding-new-light-on-chess-shogi-and-go/alphazero_preprint.pdf

译者介绍

朱先忠,51CTO社区编辑,51CTO专家博客、讲师,潍坊一所高校计算机教师,自由编程界老兵一枚。

原文标题:When Machines Think Ahead: The Rise of Strategic AI作者:Hans Christian Ekne

责任编辑:姜华 来源: 51CTO内容精选
相关推荐

2021-03-10 14:46:20

人工智能

2017-05-08 15:36:09

2021-01-26 10:23:06

人工智能人工智能技术

2020-11-15 20:00:21

人工智能AI

2022-04-27 10:23:20

人工智能首席信息官

2021-04-07 10:48:45

人工智能深度学习

2021-04-07 10:52:35

人工智能深度学习

2023-11-07 15:01:57

人工智能民主化

2017-05-04 20:45:07

人工智能数据科学机器学习

2023-07-26 09:00:00

人工智能AI检测

2023-06-30 11:08:13

AI人工智能

2022-11-25 07:35:57

PyTorchPython学习框架

2022-03-18 16:11:29

人工智能数据中心AI

2024-03-14 08:00:00

人工智能生成式对抗网络网络钓鱼

2021-04-15 08:00:00

人工智能数据技术

2022-06-20 11:05:58

通用人工智能机器人

2018-04-14 08:15:32

2021-05-11 11:26:18

人工智能自然语言机器人

2022-03-14 10:20:15

人工智能学习高效

2017-05-02 13:45:14

点赞
收藏

51CTO技术栈公众号