对话清华黄民烈：借用自动驾驶分级定义AI对话系统，元宇宙虚拟伴侣或位于L5-黄民烈清华大学

本文转自雷锋网，如需转载请至雷锋网官网申请授权。

“我很庆幸能陪在你身边，通过你的目光看世界（I'm so happy I get to be next to you and look at the world through your eyes.）。"

这是影片《Her》中的一句台词，由AI语音助手Samantha对男主角说出。这句话对于迷失在钢铁森林中，感到失落而无力的男主角来说是莫大的安慰。

Samantha是一款几乎万能的自我学习型操作系统。她能帮助男主角筛选出最优秀的信件，发给他喜欢的出版社出版；她可以根据男主的需要，瞬间漫游整个人类知识库，搜索出最适合他的应对方案；她最强的功能还要数情感陪伴，男主的一切困惑和不悦都能在谈话中被她以温情化解……

作为国内NLP领域的前沿学者，清华大学计算机教授黄民烈将NLP技术应用到心理健康赛道，主导研发AI情绪对话机器人Emohaa。在采访黄民烈教授时，他便提到了这部2013年上映的影片《Her》，言谈中表现出了对这部科幻影片的欣赏，或者说，期待。作为研发AI对话系统的同行，他期待着《Her》中那样善解人意的AI对话系统真的出现在现实当中，实现行业的飞跃进步。

这不禁令人发问：如果要使AI对话系统像Samantha一样执行复杂情感任务，做到安抚情绪，疗愈人心，其难度有多高？这个难度如何量化？怎样衡量一个AI对话系统是否达到Samantha的级别？

这并不是一个不切实际的问题。事实上，在如今AI对话系统呈爆炸式增长的态势下，“小度”、“小爱”、谷歌对话机器人“Meena”，Facebook聊天机器人“Blender”等等对话产品层出不穷。然而，当前AI对话系统标准缺失，造成其在应用中呈现出水平参差不齐、评价体系不一的现状，导致了业界因认知不统一而对人工智能的交互水平出现误解，也引起了社会上关于意识、伦理、道德等方面的广泛讨论。

也有从事AI对话系统开发的科学家提出，自己时常感到难以评判所开发AI对话系统的水平。科学家认为，业界急需一个针对AI对话系统水平进行分级的标准。在制定了分级标准后，AI对话系统能力水平的衡量才将有据可依。

因此，为了更好地评估AI对话系统的能力水平，黄民烈教授联合学界和业界科研机构参照自动驾驶中从L0到L5的分级概念，制定了全球首个《AI对话系统分级定义》（以下简称《分级定义》），并于6月28日正式发布。

对话清华黄民烈：借用自动驾驶分级定义AI对话系统，元宇宙虚拟伴侣或位于L5 图注：黄民烈教授讲解AI对话系统的分级定义

《分级定义》的出现，或将推动AI对话系统在虚拟个人助理、智能家居、智能车载语音、情感陪护和心理健康等等领域的应用，并将加速下一代AI对话系统的研发与落地应用，对学术界与工业界研究语音语言对话系统均有重要的参考意义。

围绕《分级定义》，AI科技评论与黄民烈教授进行了一次对话，以下是对话内容：

AI科技评论：请问是什么让您产生了要对AI对话系统进行分级的想法？

黄民烈：目前我们对于对话系统的评价存在一个问题：如今的技术路线和架构百花齐放，互相之间难以比较。例如，我想要拿一个智能音箱和一个聊天机器人比较，但无法比较其对话能力，因为对话系统的水平参差不齐，缺少统一的评价体系，缺少一个明确的能力界定标准。

我们在任务型对话系统里有一定评价指标，在闲聊型对话系统里有一定评价指标，知识型对话系统里也有一定评价指标，指标之间到底应该怎样去统一，这就是《分级定义》主要考虑的问题。所以我们借鉴了自动驾驶从L0到L5的分级定义，也用L0-L5来对AI对话系统进行分级。

AI科技评论：请您为我们讲解一下AI对话系统分级的具体定义。

黄民烈：自动驾驶的分级从L0到L5分为六级，其中L0是指完全人工驾驶，L5是完全自动驾驶，车辆接管一切。而L1-L4是在某些特定条件下实现自动驾驶，自动驾驶的分级主要涉及人与车辆掌管驾驶的比例，定义比较简单。但是对话系统就相当复杂了，其技术路线、技术架构众多，任务多，评价指标也非常多，我们经过讨论，认为最终需要满足五个基本原则：

第一，仅仅关注完全由机器主导的对话系统，人机混合的对话系统不在考虑范围内；第二，从系统表现的能力和用户可以感知的角度出发，不考虑系统的具体技术实现方式；第三，各分级定义对应的能力水平需要可观察、可测试、可度量；第四，不区分助理类、闲聊类、知识对话类等任务类型，均以“场景”进行表述；第五，我们希望衡量对话系统的能力水平可以提供对话系统的研究方向的建议和实际应用的参考。

在这五个原则上，我们给出了AI对话系统分级的定义：

L0实际对话由人给出，系统完全没有自动对话能力，或者说在任意单一的场景里面，系统无法给出较高质量的对话。

而L1能够完成单一场景的较高质量的对话，但是没有办法处理场景之间的上下文依赖。举个例子，比如我要出差，订好了去南京的机票，又需要订宾馆。既然去南京出差，肯定订在南京的某个宾馆。这就是有场景之间的上下文依赖，这种订飞机票和订宾馆之间形成的上下文的依赖，L1无法处理。

而L2是在L1的基础上能够同时完成多个场景较高质量的对话，具有跨场景的上下文依赖和自然切换的能力。我刚才讲到了订机票又订宾馆，还要问问那边的天气怎么样，有什么旅游景点，这就是自然地在不同任务和不同场景之间灵活切换。这种能力在L2上非常关键，但是L2没有办法完成新场景的较高质量的对话。

L3在L2的基础上能够针对大量场景开展高质量的对话，在新的场景上也具有较高质量的对话能力。我在此处提到了一个“大量场景”，也许你会问“大量”是多少？十个算不算、二十个算不算、三十个呢？为了标准和定义能有更广泛的结合度，我们并没有给出数量上的具体定义，但是在没有见过的新场景下是否有较高质量对话是很关键的能力。

L4是指在新场景上具有较高质量的对话能力，并且在多轮交互里面拟人化（指人设、人格、情感观点等维度的一致性）的程度较高。这就好比我们跟一个人聊天，对方不可能一会是男的，一会是女的，不可能一会儿在清华上学，一会儿在北大上学——人都有自己固定的人设信息，这种人设信息目前在对话系统里面处理还是非常之难。目前我们能做到让对话系统一定程度体现人设，但是离真正类人的水平还差得比较远。

L5在L4的基础上更上一层楼，L5在多轮交互中拟人化程度很高，能够在开放场景交互中主动学习和持续学习，具有多模态感知与表达能力。这就好比我们跟小孩说，你这么做不对，小孩就学会了。未来我们希望L5的对话系统能够做到我们跟它讲什么是对的、什么是不对的，它就能够记住和学会。在交互过程中，我们同时希望L5对话系统有多模态的感知和表达能力，能真正进入到元宇宙和各种虚拟人的场景里面，能够真正地做表情和动作，能够理解对方的表情、动作和情绪等等。

以上就是《AI对话系统分级定义》中从L0到L5的基本定义。

AI科技评论：您刚才提到的“较高质量”和“高质量”是如何定义的呢？

黄民烈：何谓高质量和较高质量，其实我们有一整套评判标准。满分为10分，高质量是指在相关性、信息量、自然度三个维度上的分数可以达到8-10分，较高质量就是6-8分，低质量就是小于6分。

这三个维度是什么意思呢？相关性是指回复的内容跟前文适度匹配；信息量是指回复提供足够必要的信息量，像“我不知道”，“好的”这种回复就是没有任何信息量的；自然度是指与人相比的自然度，对话系统的语法是否通顺，是否存在常识错误等。

而这个分数怎么去测呢？可以通过一定数量的测试者和这个对话系统进行充分的对话交互，由测试者从三个维度对对话系统进行主观打分，很像亚马逊Alexa Prize竞赛评价的方法。

注：亚马逊Alexa Prize竞赛的目的是提供一个标准的开发环境和测试框架来推动对话机器人综合能力的进展，其奖金高达350万美金。根据该大赛的评分系统，在2019年、2020年、2022年这三年中，该竞赛评出最好的系统平均分在3.1分到3.6分之间，是在满足连贯性、上下文理解、流畅回应三个条件下，能够跟人聊上10-14分钟的水平。

AI科技评论：定义AI对话系统分级有何意义呢？

黄民烈：第一个心理治疗机器人Eliza出现于1966年，截至目前，AI对话系统已经发展了快60年。在这60年中，无论是对话系统的应用，还是算法模型，都取得了巨大的进展。但我们也会发现工业上的实践，民众的认知都存在各种各样的不一致甚至分歧。而且近年来，AI对话系统已经从基于规则的第一代和以传统机器学习为核心的第二代，发展到以大数据和大模型为显著特征的第三代，在开放话题上展现出了惊人的对话能力，对话能力也产生了革命性变化。

这种革命性的变化给我们带来很多新的问题，如：AI对话系统会有人格吗？会有情感吗？AI对话系统是否能成为虚拟伴侣？等等，而这些问题又延伸到进一步的社会认知和伦理道德方面的讨论。

比如说，6月12号有一则新闻，一位谷歌AI伦理研究员Blake Lemoine认为LaMDA语言模型具有人格，因为在与LaMDA聊天的过程中，LaMDA透露出它认为自己拥有意识和感觉，它还说「我意识到我自己的存在，我渴望更了解这个世界，而且有时会感到快乐或悲伤。」网络上对此一时众说纷纭，都在讨论AI是否拥有了人格和意识。

再说说元宇宙，元宇宙希望能够把真实世界复刻到网络里面，让真实世界的人们在网络世界里互动起来。而AI对话系统在元宇宙内有极大用处，比如AI导购员可根据用户偏好提供独特建议等等。这就要求我们未来要将对话交互能力做到极佳，否则这种人机交流就不自然，没有灵魂，我们想要达到的元宇宙也就不成立。

所以说，基于可以预见的AI对话系统未来的蓬勃发展，以及这种发展可能对人类带来的巨大机遇和许多困惑，我们在这个时间点上探索分级定义的意义非常重大。

AI科技评论：在电影《Her》中由于Samantha能够处理复杂情感任务，男主角爱上了她且陷入了情感危机，那么同样达到了L4-L5的AI对话系统是否可能造成这样的问题？这是否涉及到伦理问题？

黄民烈：是的，随着对话系统的发展，可能导致非常突出的伦理问题，因为这挑战了已有的伦理秩序和已有的社会认知。所以在制定《分级定义》时，我们团队邀请了北京师范大学新闻传播学院院长张洪忠教授。在我们的后续工作中，张教授会第一时间向管理部门及社科学界进行推广，让相关部门和学界了解后，直观地从技术逻辑中帮助我们制定相对应的政策法规伦理问题，这样非常有针对性。

AI科技评论：目前国内市场上已有的AI对话系统产品在《分级定义》中属于什么水平？

黄民烈：小米技术委员会主任、AI实验室主任王斌教授和我们一起合作制定了《分级定义》。他目前负责主导开发小米的智能生活助理“小爱同学”的智能问答和闲聊功能，那我们就拿小爱同学举个例子。我认为小爱同学具备一定的跨场景的能力，其水平应该在在L2-L3之间。现在国内业界产品的水平一般都在L2-L3这个范围，好一些的处于L3。

AI科技评论：那么国外的AI对话系统产品大致属于哪个水平呢？

黄民烈：目前就产品来说，国内外没有显著的差别。而且值得注意的是，我们做中文AI对话系统比英文更难一点，因为英文内容开源的文化和理念更好，且英文更容易获取到高质量的数据；另一方面说来，中文的语言特点比英文更难一点。

AI科技评论：从大多数产品目前的状态升级到L4-L5的技术难点是什么？

黄民烈：第一，要有记忆的能力；第二，要有联想和推理的能力，以及自学习的能力；第三，L4-L5的关键点是多模态。AI对话系统若想要在元宇宙里适用，那AI对话系统对于表情的识别、语音的理解，从语音上感受用户的情绪等能力就很重要，是否能做高表现力的语音合成，以及动作和表情细粒度的表达，也都是很重要的难点。

AI科技评论：《分级定义》这种标准通过民间制定就可以推行吗？还是说需要通过国家的审批，再由官方制定相关标准？

黄民烈：《分级定义》不是一个标准。首先我们是想从学术角度去讨论这个问题，希望促进社会公众的认知，同时希望能给工业界系统开发以及研究方向提供一些系统性的思考。现阶段我们不能说《分级定义》已经是一个固定标准，它目前还只是一个建议或者一个指南，而未来我们要做更多的工作，把它推广成大家认可的标准。这是一个长期的过程，《分级定义》的发布只是AI对话系统走向规范化、系统化发展的第一步。

AI科技评论：那如您所说，需要什么样的工作才能让《AI对话系统分级定义》获得广泛的认可和应用呢？

黄民烈：后续我们计划在CCF（中国计算机学会）的支持下，联合相关研究机构和研究者们开展白皮书的编撰，并聚焦AI对话系统的发展历程，详细阐释《分级定义》的制定目的和标准。

另外，我们希望推动一个类似亚马逊Alexa Prize竞赛的大赛，这是一个需要资金支持的远期目标。我们希望能够做出一个统一的开发环境，统一的数据集，统一的测试框架，真正比较不同的对话系统。我知道百度有类似的想法，但是还不够开放。我们未来会再统一各方的力量，目的是希望能够促进对话系统研究方向的进展，同时也促进工业落地，在实践应用上取得一些新的发展。