有1000多名参与者参加了在上周举行的虚拟填字游戏「美国纵横字谜锦标赛」(American Crossword Puzzle Tournament),其中有一位令人印象深刻的竞争对手。
而人工智能则在填字游戏竞赛中首次超越人类。
最新的AI进步不仅显示了对自然语言进行计算理解的潜力,而且,通过仔细研究一个软件如何试图打破恶魔般的填字游戏线索,就可以使我们对使用语言玩游戏时大脑的行为有新的见解。
硅基队伍的又一次胜利!
对于填字游戏机器人Dr. Fill来说,这是与碳基玩家竞争了近十年后的一场重大的胜利。
Dr. Fill是由计算机科学家Matt Ginsberg制作的,这位科学家同时也是填字游戏的制作者。
自从2012年,Dr. Fill就开始非正式地参加美国填字游戏竞赛,每年对软件进行逐步改进。而今年,Ginsberg则与伯克利自然语言处理小组合作,该小组由加州大学伯克利分校教授Dan Klein指导的研究生和本科生组成。
Klein和他的学生们从2月开始研究该项目,之后便与Ginsberg取得联系,看看能否在今年的比赛中将他们的成果相结合。在锦标赛开始前两周,他们共同完成了一个混合系统,其中,伯克利小组的神经网络算法(用于解释线索)与Ginsberg的代码(填充填字游戏网格)协同工作。
新的经过改进的Dr. Fill看似在填字时一阵忙乱,但是实际上,程序的运行是有条不紊的,它会分析线索并给出答案的候选词的初始排名列表,然后根据诸如与其他答案的匹配程度等因素来缩小可能性。正确的答案可能会深深地埋在候选列表中,但是足够的上下文可以使它逐步浮现出来。
Dr. Fill的训练数据是收集到的以往在各种渠道出现的填字游戏。为了解决难题,该程序引用了已经「看到」的线索和答案。像人类一样,Dr. Fill在面对新挑战时,必须依靠过去所学到的知识,寻找新旧经验之间的联系。
例如,由《华尔街日报》填字游戏编辑Mike Shenk构建的竞赛的第二个题目,是根据一个主题,即长答案后加上字母-ITY来构成新的幻想短语。
Dr. Fill很幸运,因为尽管有一些不寻常的用语,但一些答案却出现在2010年《洛杉矶时报》上同样主题的填字游戏中,Ginsberg在他的数据库中包含了超过800万条线索和答案。但是填字游戏锦标赛的线索却完全不同,而Dr. Fill仍然面临着找出正确答案的挑战。
Dr. Fill?Dr .「Kill」!
对于所有答案,无论是否是游戏主题的一部分,该程序都会尝试成千上万种可能性,以生成与线索最匹配的候选词,并根据可能性对它们进行排名,并根据网格的约束对其进行检查。有时,排名最高的候选词就是最合适的:例如,对于「imposing groups」这个线索,Dr. Fill将正确的答案「ARRAYS」列为首选词。「imposing」一词从未出现在该词的线索中,但出现过其他同义词,如「impressive」,这使Dr. Fill可以推断出语义上的联系。
交叉字母通常有助于缩小候选者的范围,因此,在五个字母的答案中,知道第二个字母是O,答案的线索是「噢,太可惜了!」,这样便可以找到正确的答案「SO SAD」,使其升到列表的顶部。
涉及双关语或其他文字游戏的线索通常会非常棘手,通常会带有问号。在这个题目中,「PERISCOPE」得到了线索「Sub standard?」,一开始迷惑了Dr. Fill。它的主要猜测是「sub」与三明治有关,因此它提出了「TUNA ON RYE」之类的候选词。不过,通过伯克利的神经网络系统便能够识别出带有问号线索的异常情况。Klein解释说,虽然没有明确教导问号会存在某种语义上的把戏,但通过机器学习,它可以逐渐推测它需要寻找比常规线索要不那么直接的选项。
最终,Dr. Fill能够在一分钟内解决填字游戏,比任何人类竞争对手都要快整整两分钟。
但是,它并不是对所有题目都完美无缺:它没能做出其中的两个,并在结束时存在错误。尽管受到了得分处罚,但Dr. Fill的惊人速度足以让他在七个题目之后位列排行榜榜首,领先于最快的人类竞争对手。
碳基生物已经完败了吗?
自1978年成立以来一直监督年度锦标赛的《纽约时报》填字游戏编辑Will Shortz指出,今年的锦标赛题目可能发挥了Dr. Fill的优势,因为“每个答案都是从左到右和从上到下的可被理解英语阅读 。
”Shortz还表示,“Dr. Fill的编程如此精巧,以至于它能很好地解决十分困难且棘手的猜字游戏”,不过他已然认为碳基队已然在许多方面仍具有优势。“目前,人类仍然更擅长处理诸如填字游戏之类的混乱,非逻辑的现实世界问题。而Dr. Fill依然会被某些不会出现在人类身上的方式所难倒。”
随着机器学习的进步以及为该计划提供更多题目和训练数据,Dr. Fill在未来几年中可能会获得更好的成绩。然而,Klein看到的更多是经常出现在自然语言处理领域的挑战。
例如,人类的大脑经常进行所谓的“多跳阅读理解”,将不同的知识点组合成一连串的推理。而正如Dr. Fill对「sub」这个线索的困惑所证明的那样,其“大脑”仍难以辨认具有可替代性的,较不常见的含义。例如,纽约时报在填字游戏的线索中的误导:「King-like, in a way」。
答案是「MACABRE」,因为这里的「King」是指小说家「Stephen King」(斯蒂芬·金)。
Klein将Dr. Fill视为如何能够从字谜最隐秘的线索中解开含义的第一步。当涉及到特别狡猾的语言样本时,例如涉及推理链的样本,Klein表示:「那些把人们难住的样本可能会更加使这种系统陷入困境」。
填字游戏将继续展现其对AI独特的挑战,因为其证明了语言不仅仅意味着简单的交流,而且是一种典型的人格特质。