这一次,他们与前国际象棋世界冠军弗拉基米尔·克拉姆尼克(Vladimir Kramnik)合作,希望引导AI技术重新学习这种古老棋类游戏的最新变体。
为了改善已经极为平衡的象棋规则体系,研究团队开始对这种已经拥有千年历史的棋盘游戏做出调整,并借助AI从中找到最合理、最具趣味性的变化组合。
科学家们使用AlphaZero(一种自适应学习系统,能够从零开始自学新规则并达到超越人类的游戏水平),对团队在克拉姆尼克帮助下预先定义的九种国际象棋规则变体进行测试。
对于每一种变体,AlphaZero都会自我对弈数万盘,分析特定棋盘条件下的所有可能棋步,并整理出新的战略与游戏方式。以此为基础,克拉姆尼克与研究人员们进一步评估如果采用这些变体,人类选手之间的对抗将呈现出怎样的状态,最终判断不同的规则集能否切实改善对弈。
过去几个世纪以来,国际象棋得到了长足发展,新的变体形式不断涌现。这些变体或是为了改善这项古老运动的认知门槛、或是为了在比赛中引入新的复杂性。对规则的调整无疑会对游戏策略、可玩性乃至盘面动态产生巨大冲击,而且从历史角度来看,以往只有观察过足够多人类棋手的真实对弈过程及结果,才能深刻理解规则变化带来的实际影响。
DeepMind的研究人员们表示,“以这些规则变化为基础训练AlphaZero模型,使我们得以在数小时时间内快速模拟出以往需要数十年才能实现的人类对弈过程,并回答一个个「假设」问题:在相应战略战术发展成熟之后,各种国际象棋变体究竟拥有怎样的发展潜能?”
AlphaZero测试的规则发动包括:选手可以吃掉自己的棋子,或者允许将兵卒向后移动两步等。研究团队还提出了“禁王车易位”规则,这相当于极大降低了对弈双方战成平局的可能性。
AI系统以每秒一步的速度在各种变体上分别完成了10000局对弈,而后再以每分钟一步的速度再完成1000局对弈。为了尽可能客观地研究规则变化对于游戏质量的影响,科学家们还研究了多项其他因素。其中之一就是观察平局这一最令棋手们感到沮丧的状况的发生几率。
总体而言,大多数变体确实增加了国际象棋的可能性,“僵局=胜利”这一新规则也让对弈中的考量因素进一步增加。研究人员们还发现,时间控制也会给游戏带来决定性的影响:每秒一步的对弈,下成平局的可能性将远远低于每分钟一步。
每秒一步的对弈,下成平局的可能性将远远低于每分钟一步
结果还显示,在大部分对弈当中,AlphaZero都能够借助新规则积极采用前所未有的战术,而不再拘泥于经典棋路。研究人员们指出,“这表明新的规则确实产生了影响,也令游戏本身变得更具生命力。”
在对AlphaZero在新规则下的行为进行统计分析之后,DeepMind团队还参考了克拉姆尼克的意见,包括由其解答规则变体下棋子出现的位置、移动方式以及其他关于战术思路的主观问题。而这位前国际象棋世界冠军的参与与评论,也有望让这些全新规则在传统国际象棋社区中得到关注。
这位俄罗斯国际象棋大师长久以来一直在倡导取消“王车易位”规则的变体,并表示取消这项规则为了鼓励进攻,消除棋盘双方消极抵抗的动机。另一方面,克拉姆尼克还发现“僵局=胜利”变体对于国际象棋的总体影响较小。
国际象棋网站Chess.com首席国际象棋棋手Danny Rensch也通过视频点评了DeepMind的发现。但与克拉姆尼克不同,Rensch认为“僵局=胜利”这项规则最有可能显著改变国际象棋的标准游戏方式。
Rensch解释道,“除非真正消除造成僵局的因素,否则国际象棋永远不可能彻底摆脱这个难题。我坚信僵局应该等于胜利,这不仅有助于初学者们探索关于这门运动的更多可能,同时也将给棋盘上的搏杀方式产生决定性的影响。”
最终,AlphaZero给出的观点只能作为参考,我们无法预测哪些国际象棋规则变体能够真正为人们所接受。找到答案的唯一方法,就是观察人类选手如何采用、更改或放弃不同的变体。但无论如何,如果这次尝试能够让更多朋友重新打开尘封已久的棋盘,就是DeepMind研究团队最大的胜利。