本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
今天,我和AI绝悟打了6局王者荣耀,心态有点崩。
没赢过?不,比分3:3打平,还拿过MVP。
那怎么就崩溃了?听我慢慢道来。
PVP对战手游王者荣耀在五一节期间上线了一种新玩法——挑战 · 绝悟,也就是5人组队和5个AI对战。
早就听闻「绝悟」在测试版的的胜率高达99.8%,而身赋「王者段位」操作水平的我,觉得是时候在王者峡谷中大展不凡身手了。
进入挑战入口后,可以看到这是一个通关玩法,一共5关,想必难度会随着关卡而提高。
OK,迫不及待,是时候展现真正的技术了。
被“吓到”抽搐的后裔
先来说下第一局的阵容。
我方:孙尚香(我)、上官婉儿、嬴政、孙策和裴擒虎。
敌方:后裔、李白、关羽、小乔和牛魔。
开局前,我还在想「绝悟」会不会像人类一样有策略,果不其然,刚上线,对面李白就带着牛魔准备反我家的“蓝爸爸”(见左上角小地图)。
此时的我还沉浸在对绝悟的赞叹中:有几分人类玩家的样子。
然而,就在这时,让我更意外的事情发生了——我被后裔“阴”了,原来他一直蹲在草丛里注视着我……大半管血就被消耗没了。
当我想反手回击,中路小乔又过来支援了……还好我身轻如燕,没造成送一血的悲剧。
或许是看到了我曼妙的步伐,对面的后裔……抽搐了!
此后,坚信发育就是王道的我,就开始安心清兵线,队友们也非常给力,开局不到3分钟,已经拿下7个人头。
不过,不得不说,在团战期间,「绝悟」支援的速度还是非常可以的。
但AI可能也是不经夸的,在一次团战中,后裔看到了我的入场,又抽搐了!
最后,在队友非常默契的配合下,13分钟顺利拿下胜利。
旗开得胜,开心!
趁热打铁,赶快第二局,双方阵容如下。
我方:虞姬(我)、嬴政、橘右京、夏侯惇和孙悟空。
敌方:伽罗、孙悟空、达摩、蔡文姬和干将莫邪。
这局凭借着我家猴子碾压「绝悟」操作的猴子,以及夏侯惇优秀的上单表现,即便面对伽罗、干将莫邪这种长手怪,也顺利拿下胜利。
被我“吹上天”的婉儿
第三局从阵容上来看,难度就已经开始加大了。
我方:小乔(我)、钟无艳、刘备、狄仁杰和伽罗。
敌方:上官婉儿、虞姬、鬼谷子、孙策和曜。
这局开场,「绝悟」采取的策略,是最近比较流行的一种战术——辅助跟着中单快速清理第一波兵线。
可以看到,鬼谷子在发现我家钟无艳反野后,也非常机智的选择回去帮忙。
在「绝悟」的迅速支援下,我方伽罗成功送上了第一个人头,这个场景跟第一局如出一辙……毕竟,这局的射手不是我,操作不出那华丽的身法……
然而,此时的提示语亮了——一血标本获得——1。
What?!我们人类在绝悟眼里,竟然是标本……
这局并没有像之前那般顺利,在接近6分钟时,双方战绩可以说55开,13:11。
其实,对线婉儿我是比较怕的,毕竟在一个“贼6”的婉儿面前,我只能是个活靶子。然而,「绝悟」操作的婉儿,简直让我惊呆了。
举个例子,我家狄仁杰处于残血状态,婉儿突然从野区中冲出来,看她行进的路径,应该是那套“一气呵成带走人”的招式没错了。
正当我以为她的“133233上天”要带走我们俩人时,她的上天……竟然是被我的吹起来的……然后就灰头土脸的跑!掉!了!
此后,被我吹起来,可能已经成了婉儿上天的习惯。
强悍如我——“都给我坐下”!
而就在7分钟左右,系统突然弹出了一个提示——绝悟AI集体升级换代中……滴滴滴。
不好,AI的能力可能要加强了,我的内心产生了一丝恐惧。
就在这时,游戏结束了……没错,我们一波推掉了水晶。
抱歉,你们的“升级换代”,这次就没法体验了。
嗯,我有点膨胀了。
连败3局,内心崩溃
然而,接下来的路,便让我一步步地走向崩溃的边缘。
还是老规矩,先来介绍下第四局的阵容。
敌方:老夫子、貂蝉、张飞、李元芳和赵云。
是不是很好奇,我为什么没有介绍我方阵容?
来看下崩溃第一弹!
嬴政、王昭君、小乔、马可波罗和虞姬。
这波法师和射手的“脆皮联盟”,简直快弄瞎了我的眼。
毫无悬念,13:30,14分钟,已经分不清这个“人机模式”下,谁是人,谁是机。
以及还被「绝悟」实力嘲讽了一波:好安静啊。
此外还有一个画外音:下次试试拔掉AI的电源……
收拾好心情再出发,还是挑战这关。
这一局我们的阵容还是不错的:孙悟空、明世隐、成吉思汗、嫦娥和安琪拉。
然而,万万没想到,崩溃第二弹竟然来得如此之快。
开局刚上线,明世隐挂机,还说道:“挂机吧,赢不了。”
嫦娥也附议:“你们选的人,根本赢不了。”
不服输的我说道:“不怕AI,就怕你们这样的队友。”
再次毫无悬念,被“人机”。
OK,再次整理心情,挑战这关的「绝悟」。
这一次,我们的阵容如下:
李元芳、张良、关羽、韩信和蔡文姬(我)。
在王者荣耀对局中,输的理由千千万,这一次,我们是浪输的。
明知道「绝悟」支援非常迅速的情况下,各种“冲锋陷阵”,那种“我不入地狱谁入地狱”的勇气简直让人感动。
臣妾的奶量再大,也抵不过队友们的浪啊!于是乎,又输了。
这,就是我和AI打了6局王者荣耀的故事。
「绝悟」AI:30小时达到王者水平,70小时比肩职业玩家
「绝悟」的 1v1 版本首次露面,是在2018年的 KPL 秋季总决赛上,而后在去年8月份,在5v5比赛中击败了人类职业战队,实力不容小觑。
而有关「绝悟」的技术细节,在去年年底时,腾讯在一篇入围AAAI 2020的论文中也有所披露。
首先需要指明的是,腾讯的这篇新论文关注的是 1v1 游戏AI,并不是 5v5 游戏AI。
研究人员在论文中解释称,后者更注重所有智能体的团队合作策略,而不是单个智能体的动作决策。
考虑到这一点,1v1游戏更适合用来研究游戏中的复杂动作决策问题,也能够更加全面系统的研究游戏 AI 智能体的构建。
AI的整体架构一共分为4个模块:强化学习学习器(RL Learner)、人工智能服务器(AI Server)、分发模块(Dispatch Module)和记忆池(Memory Pool)。
这是一种高可扩展低耦合的系统架构,可以用来构建数据并行化。主要考虑的是复杂智能体的动作决策问题可能引入高方差的随机梯度,所以有必要采用较大的批大小以加快训练速度。
其中,AI服务器实现的是 AI 模型与环境的交互方式。分发模块是用于样本收集、压缩和传输的工作站。记忆池是数据存储模块,能为 RL 学习器提供训练实例。
这些模块是分离的,可灵活配置,从而让研究者可将重心放在算法设计和环境逻辑上。这样的系统设计也可用于其它的多智能体竞争问题。
在强化学习学习器中,他们还实现了一个 actor-critic 神经网络,用于建模1v1 游戏中的动作依赖关系。
为了应对游戏中的多个场景决策,研究人员们还提出了一系列算法策略,来实现更高效率的训练:
- 为了帮助AI在战斗中选择目标,引入目标注意力机制;
- 为了学习英雄的技能释放组合,以便AI在序列决策中,快速输出大量伤害,使用了LSTM;
- 用于构建多标签近端策略优化(PPO)目标,采用动作依赖关系的解耦;
- 为了引导强化学习过程中的探索,开发了基于游戏知识的剪枝方法;
- 为了确保使用大和有偏差的数据批进行训练时的收敛性,改进 PPO 算法提出dual-clip PPO,其示意图如下所示:
研究人员在论文中指出,基于这样的方法训练一个英雄,使用48个P40 GPU卡和18000个CPU 内核,训练一天相当于人类打500年,训练30个小时就能达到王者段位水平,70个小时比肩职业玩家,其表现要显著优于多种baseline方法。
而且如前所述,在与人类选手交战的测试中,获得了非常亮眼的成绩。
如果你想了解关于这一AI更多的细节,我们将论文链接放到了文末~
以及,我要继续去挑战了「绝悟」AI了!
传送门:
https://arxiv.org/abs/1912.09729