【51CTO.com原创稿件】2017年7月21日-22日,由51CTO主办的以人工智能为主题的WOTI2017全球创新技术峰会在北京富力万丽酒店隆重举行。峰会期间,30+AI明星,数十场围绕人工智能主题的精彩演讲与圆桌论坛缓缓揭开面纱。除了场内的精彩演讲,场外还有专门为AI爱好者搭建的动手实验室和科技体验区,这一切都让本次大会亮点十足。
7月21日下午WOTI2017主会场,三角兽联合创始人&CTO亓超进行了主题为《如何消除机器对人类的误解》的精彩演讲。以下是演讲实录,让我们先睹为快!
三角兽联合创始人&CTO亓超
大家好,我是亓超。三角兽公司的名字特别奇怪,这个名字来自于我们三个创始人,我们三个是相对互补的团队,其中一位,我们俩都是百度的同事,还有一位负责品牌宣传,之前在安利中国、奥美公关工作。我们希望解决的问题是语义部分,涉及到人机交互系统面临的问题,今天的主题希望从技术方面分享,因为我觉得CTO主要责任是解释技术的问题,把握技术的方向等等内容。
人机交互的事情并不是特别新的话题,希望人能够和机器自由对话,让机器理解人类语言,执行人类下达的任务,或者说跟它有一些更自然的沟通。所以从历史上来说,经历了许多起起落落,在AI行业,特别是最近几年有几次波峰和波谷的状态。最近几次,语音技术的突破,语音识别和合成质量比之前高很多,之后带动了一波语音助手产品出现,随之大家意识到这种产品慢慢从市场逐渐的消亡掉,变成了低落时期。随着近几年发展又出现更多产品,市场有抬头趋势,特别是最近国家发布了战略目标,把AI技术,或者说这种概念,往上带动,随之有很多产品出现,比如微软小冰、百度糯米等等产品。
主要由几部分构成,第一部分是自由的和人类对话,所有不能理解和不能捕获的语言都会抛出一个自然搜索的结果,这是对对话过程的中断。而且,自然的沟通免不了要有一些无目的的、无任务驱动的聊天过程。所以在这里,必要的一个方面是像人一样能够更顺畅的和人进行开放领域的聊天对话。第二部分是作为机器人,作为某一方面或者某一领域的工具来讲,它还要给人类提供一些服务或者信息,包括问答的技能,或者说我要帮你达成订餐、订机票的服务功能。还有主动行为,因为智能汽车不光体现在应答,还体现在主动方面,能够理解你,同时推送你希望获取的信息或者希望获取的服务。
整个人机交互系统涉及的技术模块非常多,可以认为是自然语言处理或者相关的技术大集成,作为整体技术的出口呈现。这张图想表达从底下往上是逐步集成的过程,最底层设计的技术包括深度学习,强化学习,还有自然语言处理的基本技术,这个作为基础的模块,需要系统里必须打造成非常好的强壮的基础。另外涉及到语义和信息检索,让机器去理解人类的语言,免不了要教他内容,或者学知识,这些知识的来源通过数据实现,我们要做很多数据挖掘的工作。
从下往上看第二层,技术组合模块,包括自然语言理解,决策过程,推荐,还有知识库,还有计划的推论,或者分类聚类以及情感的分析,这些都是对话机器人不可缺少的模块。浅绿色部分是集成,形成子系统,包括开放领域的聊天系统,基于检索的问答系统,基于结构化数据的检索系统,还有任务驱动的对话系统。希望它能够更清楚理解用户状态,我们需要借助用户信息用户模型的技术,对人实现个性化的体现更好。最后是主题推荐。再往上层是系统API层面的集成,把子系统分装成对外服务,展示成不同硬件或者不同的产品形态。这里强调几个方面,和大家分享一下三角兽人机交互系统对主要方向的理解。
第一个是人机交互聊天,他希望机器表现的更像人,具有和人无限领域的对话,就像你的朋友,可以和你聊一些他感兴趣、你也感兴趣的话题。这里涉及的方方面面很多,包括无目的聊天和有任务驱动的系统,需要一个控制模块,能够把这些内容和系统集成在一起,并且能够做辅助决策,这个决策举一个例子。比如用户说了苹果这句话,它的意义很多,有可能是范冰冰演的电影,也可能是一个水果,通过电商渠道购买的商品;可能是一个公司,他希望了解苹果公司的新闻;到底该是哪个服务来完成,需要控制,整合聊天的事,对话的上下关系,以及用户的兴趣点,最终决策出一个真正应该响应的问题。这里就是我们开放语对话,在你没有这种驱动的时候整个对话往下顺畅进行,当你没有办法决策出我应该往哪个服务进行,又不希望你的对话表露尴尬,开放语聊天起的很大作用是顺畅整个对话过程,引导出更多的信息需求和服务需求,满足这样的基础。
我们之前做度秘、小冰这样产品的时候有几个数据可以看到,70%以上用户的PV属于开放聊天对话,这里是人机对话系统做的很好的标准,自由开放的对话能力。有很多种实现方式,在产品间使用最好的方式是基于检索,基于检索分成大概两部分内容实现。第一部分是PPT最下方,我们需要从互联网公开资料获取大量文本,来自于人和人日常对话,通过深度学习和机器学习的手段,来完成人和人之间发生对话,人和人之间的对话是必要的手段,我们这里也下很大精力去挖掘数据,我们现在积累的是500亿(英文),来自于社区、论坛。这些语料我们需要清洗,把人与人之间对话隐私数据洗掉,变成可以用来直接在系统使用的数据。在线上的时候,我们会用各种模型和算法拟合这个数据,当用户发一个问题给机器人的时候,我们找历史上某一个人说的非常相似的话,同时把对方回复的话作为信息的特征,变成一个可以用来回复的后续。
另外一个方法在学术界比较流行的方法,跟刚才的区别是,系统里面需要一个大的搜索引擎,或者语料检索系统,搜索人和人之间的对话哪句相似,把刚才的语料在线下搜索出概率模型,一般我们用深度学习比较重要的两个模型,去拟合数据,线上不需要检索这个过程,而是一个词一个词生成我们应该回复的话。
刚才聊的话题属于有无目的的驱动对话,像你和朋友之间的聊天范畴。还有一种对话方式是有目的的,比如订票,或者完成点餐操作的机器人,这种机器人对话是有任务目的驱动的。我们希望聊的时间越长越好,机器人和人能够无缝交流,这里有几个产品给大家。像度秘聊天系统最好的是一个男孩子两个月和它聊过两万多句,这两万多句能够挖掘出很多工具里没有体验到的数据或者用户的个性化特点。另外,机器人最终要服务于人,这部分希望越来越好,好比我去餐厅点菜,我不希望和餐厅服务员进行多轮对话,我希望越快越好,点菜完成就好。这个过程中我希望以最短路径实现,另外一种不同架构方式,分成大概四个部分。
第一个是我们要理解对方说话的意思,这里包含两个部分,一个是我要了解这句话的意图,比如订票,或者希望查一条信息,这个意图分析出来之后,我们需要在该意图之下分析表象,比如北京到上海的飞机票。第二个是为了完成任务,我们需要收集不同种类的状态,比如订机票,我们还要获取他希望订什么时间的机票,这个情况下我们要维护一个状态,收集的集合,看我们现在已经收集的状态,是不是足够完成这个任务,如果不足够的话,第三阶段就同时做出一个策略,去询问澄清或者直接展示某一个结果。第四个是机器人回复,有任务驱动的机器人一般是通过产品经理设计,通过模板这样的方式去生成回复的话。
以上是两类机器人,一个是有任务驱动的机器人,一个是无任务驱动的机器人,对话机器人实现的方式。反过来,比较抽象,我们怎么评判一个机器人,它好还是坏?下面举几个例子,把刚才不同种类的机器人做一个对比。
第一个,我们先对开放机器人做对比,我们希望一个机器人,它的对话首先是相关的,你说吃饭了吗,他告诉你我还不困,这样的对话是没办法持续下去的,所以相关性是需要衡量的。在此基础上,需要讨论趣味性,即使对方是个人,你也很有可能出现聊不下去的情况,比如他总呵呵,或者总让你喝热水,这样的话一个正常人也没办法让对话进行下去,所以趣味性也是维持对话的质量标准和因素。再是满意度,如果每句话都聊的相关也有趣,但整体像神经质的人,东一句西一句帮你做牵扯,这个体验也不好。所以要衡量自然度和顺畅度。第三是用户活跃度,从两方面衡量,第一个是每个人平均给机器人对话多少轮,第二个是同样用户平均来多少次,用户平均对话次数,以此来评判机器人好坏。
这是相关不相关、趣味不趣味的例子,人工方式打分,聊天机器人偏主观,仁者见仁,智者见智,所以一般这样的评估会采用多人共同去打同样的数据,这样的评估方式,最终取一个平均分。顺畅度、自然度也是主观打分。这是一些例子,越高的分越好,越低的分越不好,当一个机器人每一句话都清楚,但每一句话所说的内容都不是你喜欢的,你对这个机器人的印象肯定也很低,所以这里有一个主观打分。这是对客观数据的举例。
另一方面,对任务驱动的对话评估系统分为四个维度,第一个是意图识别维度,准不准。第二个是召回情况。第三个是policy完成情况,当这个任务需要多轮完成,这样的系统肯定打分比较低。另外一个,没有帮你完成对话目标,这是非常重要的因素。第四个是自然语言生成,看可理解的程度和自然度。举一个例子,在意图识别这块,来首刘德华的歌,这是作为正例,负例是你喜欢刘德华吗,这两句话都提到了歌手的名字,但第一句话是希望找到这首歌吗,是正确的,第二个是开放的问题。槽粒度的召回率和准确率,比如来首刘德华的今天,我虽然能够理解他找首歌的意图,但如果把今天放在前面,今天来首刘德华的,意思就完全不一样了。这里要评估的是这样的情况,如果我们希望正确播出这首歌的话,我们需要解析出歌手是刘德华,今天是这首歌的项目,如果都解析出来就是对的。
这个举例还是在找歌的意图下,我们希望交互过程能够顺利完成的任务,第一个例子认为完成率是已经达成,系统会播出这首歌,非常好。下边的对话是说了很多次他也没有理解,最终用户放弃了,交互以失败为告终,这是任务未完成的举例。右边是判断完成的情况,一轮是我们最希望看到的情况,如果系统和用户交互非常多轮,这个时候用户基本上会失去耐心,我们看到很多音箱也好,车载交互方式,都会让人很尴尬的状态,你说很多次他都没有分析出来,让你失去了耐心,下次再使用的概率就很小了。
以上是我们对人机对话领域的拆解,包括一些技术实现的方式和举例,这块展开来讲可能需要花很长时间,今天也是抛砖引玉,给大家做这样一个讨论。
三角兽在这方面一直在做落地解决方案,首先是toB,我们的合作方目前来说有PPT上的这些罗列,当然这个不全,我们包括几大领域,硬件方面,除了手机也包括智能音箱,还有小米电视这些解决方案。另外是跟一些企业合作,例如商场,媒体,一起打造机器人。另外,我们和BAT公司也有很好的合作,现在和阿里、腾讯、百度都有聊天对话系统。
可能大家了解三角兽是从老罗那个发布会,我们错被叫成独角兽,老罗当场也做了修正,我们并没有给手机植入整体对话解决方案,而是把对话的分词模块嵌入到里面,最近这个事又重新炒起来了。我们进行了语义片段解析,很多大块模块超过词的范畴,三角兽作为手机本地解决方案,尽可能用非常小的手机资源完成最小的切入准确率。今年3月份,们首次在小米电视发布会上植入了语义交互系统,我们解决了用户在使用小米电视时通过语音方式找到他想看的电视资源。
小米电视作为互联网电视他已经有了更多承载的内容资源,不太像我们小时候看电视几十个频道用一个遥控器就能解决,现在成千上百万的电视资源,语音交互是很好的体验,我们又不希望只是做一个遥控器,如果只是做一个遥控器是语音厂商就能解决的问题,我们需要解决的是用户在找电影、电视剧的时候,经常记不住一个电影的名字,或者没有办法记住全称,比如《肖申克的救赎》,大部分搜肖申克。还有的没办法记住正确的名字,比如英剧《神探夏洛克》,但很多人会把它叫神探夏洛特,如果不加语义理解可能就会变成《夏洛特的烦恼》。所以我们在小米解决方案上会解决两个问题,当你记不住电影的名字,或者记不住准确完整的电影名字的时候,我帮你语义纠错。另外,就像男人和女人逛商场不一样的角度,很多人是直指目标,很多人是浏览行为,我们需要借助数据挖掘技术,把电影打上标签,然后加上语义理解,这个场景下解决,我希望找到一部奥斯卡里男主角非常帅的电影,来自用户电影的影评,来自粉丝对贴吧的讨论,我们把电影加入丰富的文本表示,在线上做语义匹配理解,找到他可能想要的电影范围,然后由他做进一步的选择。
这个是我们另外一个的合作落地,是香港新世界集团,这里想打造一个场景,商场一楼咨询台变成移动咨询台,因为每次去商场我都有个困惑,我希望找的商户经常没有办法找到准确位置,甚至要去问服务员,甚至厕所在哪都要问。这个时候就希望有个随身带着的咨询台,问有关商场的问题,甚至帮我引导出我的兴趣点。从左往右不同对话的机器人,你可以随便聊天,像小冰一样,帮你解决问题并对话顺畅。第二个是咨询类对话,包括怎么停车、营业时间等等跟商场有关的信息问答。第三个着重解决两个场景,一个是餐饮推荐,另外是零售导购,它希望帮你解决当你不知道这个商场有什么餐厅,但你又有吃饭需求的时候,我们帮你推荐餐馆,这样的机器人,加微信公众号,能够给购物带来新的体验。以上是我今天分享的所有内容,谢谢大家!
51CTO记者将持续为您带来WOTI2017全球创新技术峰会前方精彩报道,敬请期待!
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】