IBM最强AI辩手Project Debater代表了当前「计算辩论」研究的顶点。在充斥着海量信息和误导文化的当下,我们期待实现完全自主辩论的AI系统能够促进智能辩论的发展,帮助建立更合理的论点,做出更明智的决策。
对于辩论的研究可以追溯到古希腊,当时古希腊哲学家如苏格拉底等人在市集上与人们讨论政治,辩论真理,辩论内容包罗万象。
苏格拉底之死
当下的人工智能研究一大挑战就是「如何让机器理解自然语言辩论中的论点」。
人工智能专家Noam Slonim
近日,IBM研究院研究员、希伯来大学人工智能专家Noam Slonim和团队公布了相关研究Project Debater的进展,该系统通过扫描储存了4亿篇新闻报道和维基百科页面的档案库,自行组织开场白和反驳论点。
虽然最终仍然输给了人类辩手,但此次AI辩手的表现提供了一种可能:未来人工智能可以帮助人类制定并理解复杂的论点。
自然语言处理 (NLP)算法 NLP是指计算机自动理解、解读和处理人类语言(比如,话语和文本)。
NLP 是人机互动的关键要素, IBM Project Debater 团队积极开展 NLP研究也在情理之中。
2018年,IBM研究院则在美国旧金山的Watson West,首次展示了人类与智能机器之间的公开现场辩论赛。双方辩手分别是IBM耗时逾六年研发的,首个能与人类进行复杂辩论的AI系统Project Debater(以下简称Debater),以及以色列国际辩论协会主席 Dan Zafrir.
该研究强调了在技术发展过程中,在辩论中识别、产生和反驳论点的过程中,将不同组成部分结合起来的强大工程的重要性,每个组成部分处理一个特定的任务。
大概10年前,对人类话语进行分析,以确定引用证据来支持结论的方式——这个过程现在被称为「论点分析」,这明显超出了最先进的人工智能的能力范围。
从那时起,人工智能技术的进步和论证技术工程的日益成熟,再加上激烈的商业需求,该领域迅速扩张。全世界有超过50个实验室在研究这个问题,包括所有大型软件公司的团队。
这一领域研究激增的原因是人工智能系统的直接应用能够识别大量文本中语言使用的统计规律,这种应用在人工智能的许多应用中起到了变革性的作用,但在论点挖掘方面还没有达到这样的进展。
因为论点结构太多样化、太复杂、太微妙、太隐晦,不像句子结构那样容易被识别。
因此,Slonim等人决定发起一项重大挑战: 开发一个「完全」可以与人类进行现场辩论的自主系统。Project Debater代表了这项工作的顶峰。
Project Debater关键技术点
立场分类和情绪分析自动辩论系统必须能够确定论点能否支持或反驳给定的主题。
这对人类来说十分简单,但对机器而言则相当困难,因为它需要能够敏锐地辨别自然语言丰富的微妙之处和细微差异。
深度神经网络 (DNN)和弱监督DNN具备提高自动语言理解能力的巨大潜力,但是众所周知,训练DNN需要大量人工标记的高质量数据。
该团队开发了多种工具和方法,以弱监督式训练DNN,来缓解这个瓶颈问题。
他们还利用DNN开发Project Debater的听说技能 。
文本转语音(TTS)系统与个人助手或导航器不同,辩论系统需要能够持续数分钟对事先未知的主题作出雄辩,同时与受众保持互动。
科研团队开发了新的TTS算法和方法,用于为Project Debater提供清晰流利、有说服力的语言表达能力。
Project Debater难以达到人类辩手的连贯性和流畅性
在论证技术的发展以及将论证作为局部现象来处理的过程中,Project Debater是一个关键的步骤。
它的成功提供了一个新视角,我们可以了解人工智能系统是如何利用人类能够轻易提出来的论点组成的网络来进行工作的。
几乎所有的人工智能研究都把目标定得很高,但瓶颈在于是否能够获取足够的数据,计算出有效的解决方案来应对既定挑战。
Project Debater采用双管齐下的办法克服这一障碍: 它将重点缩小到100多个辩论专题; 从巨量的数据集中收集原始材料,。
在2018年和2019年的一系列比赛中,Project Debater挑战了多个才华横溢、备受瞩目的人类辩手,比如曾在2016年获得以色列国家辩论冠军以色列大四女生Noa Ovadia ,观众对其表现进行了非正式的评估。
该系统以其辩论技术为后盾,并以经过处理的数据集为支撑,创建了一个4分钟的演讲,开启了一场关于其全部技能中某个主题的辩论,一个人类对手会对此作出回应。
然后,它对对手的观点做出反驳,发表第二次4分钟的演讲。对方用4分钟反驳回答,辩论结束时,双方参与者都做了2分钟的闭幕陈述。
Project Debater最薄弱的一点是,它难以模仿人类辩手的连贯性和流畅性ーー这个问题与其处理能力的最高水平有关,在这个水平上,它可以选择、抽象和编排论点。
然而,这种限制并不是Project Debater所独有的。尽管进行了两千年的研究,人们对「论证结构」仍然知之甚少。
根据论证研究的重点是否集中在语言使用、认识论、认知过程还是逻辑有效性,人们对于连贯论证和推理模型所提出的关键特征各不相同。
所有论证技术系统面临的最后一个挑战是,将论证视为受一系列孤立因素影响的本地论述碎片,还是将它们编入更大规模的社会范围的辩论。在很大程度上,这是设计要解决的问题,而不是设计解决方案。
通过给论证设定先验界限,理论上的简化变得可行,从而提供了主要的计算优势。例如,识别「主要要求」就成为一个明确的任务,机器几乎可以像人类一样可靠地完成这项任务。问题在于人类根本不擅长这项任务,恰恰因为它是人工设计的。
在公开讨论中,一段给定的论述可能是一个上下文中的主张,另一个上下文中的前提。
此外,在现实世界中,没有明确的界限来划定一个论点:发生在辩论室之外的话语并不是离散的,而是与交叉引用、类比、例证和概括的网络相连接。
关于人工智能如何处理这种论证网的想法已经有相关理论在讨论,并利用软件来实现,例如,一个名为DebateGraph的系统是一个互联网平台,它提供了计算工具,用于可视化和分享复杂的、相互关联的思想网络。
然而,与这些实施相关的理论挑战和社会技术问题是艰巨的:设计令人信服的方法来吸引大量受众进入这种系统,与设计简单明了的机制使他们能够与这些复杂的辩论网络互动一样困难。
在论证技术的发展以及将论证作为局部现象来处理的过程中,Project Debater是一个关键的步骤。
它的成功提供了一个诱人的机会,让我们了解人工智能系统是如何与人类能够轻松自如解释的论点网络一起工作的。
现在假新闻充斥,公众舆论两极分化,松散的推理无处不在,这些都掩盖了人类在创造、处理、导航和分享复杂论点方面的迫切需求,而在这方面,人工智能或许能够提供支持。
因此,尽管Project Debater解决了一个重大的挑战,代表了人工智能进步,可以促进人类的推理,而且,正如Slonim等人所说,Project Debater拓宽了当前人工智能技术的舒适区,未来将能够参与更加复杂的人类活动。