【51CTO.com原创稿件】6月21日, WOT2019全球人工智能技术峰会在北京粤财JW万豪酒店准时拉开序幕。作为2019年度全球技术人员线下交流的知名峰会,本次大会紧紧围绕着通用技术、应用领域、企业赋能三大核心章节展开。来自全球的60余位一线AI大咖们齐聚一堂,与千余名参会群众共同分享了深度学习、神经网络、视觉技术、无人驾驶、机器学习、算法模型、知识图谱等主题技术内容。
6月21日下午,在通用技术章节中C会场知识图谱技术分论坛,瑞士再保险数据科学家王冠、美团点评资深算法专家潘路、中国科学院自动化研究所副研究员何世柱三位资深专家受邀出席发表精彩演讲。会后51CTO将专家发言整理成文,希望他们的演讲内容精华对大家有所帮助。
瑞士再保险数据科学家王冠
知识图谱构建:数据、算法和架构
知识图谱在保险行业有很多应用,王冠列举了四大应用场景:一是智能交互,在客户理赔时,想知道自己的保险能不能获赔,这背后不是罗列保单上的条款就能答复的,更多的是需要将保险产品、客户数据、对话记录、医疗票据各种信息整合成知识图谱,然后通过智能客服快速反馈给客户。二是精准推荐,通过知识图谱掌握客户的数据,就可以精准推荐给客户匹配的产品。三是自动理赔,现在理赔大多是人工操作,尤其是大额保单需要人工做调查,但是通过知识图谱技术,可以查到一些历史数据得出结论,从而实现自动化理赔。四是反欺诈,面对诈保现象,用知识图谱就可以方便地找到诈保人的诈骗轨迹,写一些相应的查询语句,就可以找出常见的欺诈模式。
那么如何建立一个保险行业的知识图谱呢?这是一个非常复杂的流程,涉及到知识体系构建、知识库获取、融合、存储、推理、应用等多个环节。王冠在现场重点讲述了实体与关系的抽取算法,从非结构化、半结构化的文本数据中,通过抽取实体和抽取实体之间关系的方法构建知识图谱。王冠强调,在抽取算法中,词嵌入非常重要,实现了文本到向量的转化,只要训练出了一个向量就可以非常好地表现出中文的语义,并自动抓取到相关的词语。
信息提取工具架构
文本标准工具架构
实体识别和关系提取都是自然语言处理中非常重要的任务,王冠没有多加赘述。他表示,根据不同的场景有不少构建知识图谱的方法,实体就是节点,关系就是边,通过最短路径挖掘找到背后的关系。“目前知识图谱的应用主要集中在三大方面,分别是可视化/探索、图算法、图数据库 (关系型和NoSQL)。”演讲中他还给出了非常实用的信息提取工具和文本标注工具的架构。他特别强调有了这些设计之后,人机交互将变得更加智能,知识图谱成为数据管家,成为全流程的机器学习工具。
美团点评资深算法专家潘路
基于知识图谱的问答在O2O智能交互场景中的应用和演进
潘路首先回顾了人机交互的演进历程、智能交互的种类,然后他重点谈到,在美团实际生活场景中,如果要进行信息获取、资源查询,甚至任务型交互,那么问答系统必然离不开知识图谱。本文摘取了受限场景下的问答内容。
潘路表示,传统KBQA(基于知识图谱的问答)主要分为两大技术流派:semantic parsing和information retrieval。Semantic parsing就是将原始问句转换为机器可以理解的逻辑形式,这种形式更贴近知识图谱的存储结构,可以直接或间接进行查询。而Information retrieval则直接通过有效信息的抽取,定位候选答案,之后又有两种做法,一是利用三元组生成自然语言,和原始问句比较实现查询;一是把候选答案以及周围的路径进行编码,和原始问句编码后进行比较得出答案。
在美团的受限场景下(以点餐为例,菜品范围是限定的,供餐地点和时间也是限定的),应该选择怎样的技术路径呢?潘路表示,美团涉及的领域较多,领域之间关联较弱,并且没有足够的标注数据,还必须满足快速的领域迁移需求。是否可以借鉴information retrieval的思路,但同时又可以构造查询语句来查询图谱呢?于是美团提出了information retrieval+semantic parsing的方案,通过实体链接确定子图,之后是关系识别、槽位识别、最终生成SparQL来执行查询,每一步都可以用简单的规则冷启动,也可以上无监督或者有监督模型。
潘路强调,在受限场景中,美团面临的问题特征主要是意图空间有限、资源有限、交互轮数有限、知识外延有限。因此在这个基础上,他们提出的KBQA具备四大能力:基础属性问答、带约束的资源查询、资源信息比较以及动态属性值计算。
中国科学院自动化研究所模式识别国家重点实验室副研究员何世柱
基于知识图谱的问答关键技术
何世柱从信息表示发展历程开始讲起,他表示知识图谱是机器理解世界的基础,语言系统&知识图谱也是知识应用的奠基石,问答系统将是下一代搜索引擎的基本形态。
他介绍到,知识问答通常有两类方法:一是语义解析方法,这种方法准确率高,召回率低,能解决复杂问题,适合限定领域、限定语言表达,而且可以经验性地解决,不需要训练机器学习方法,更便于控制,便于干预。二是自然问答方法,它有更友好的交互接口,可以实现知识驱动与数据驱动的融合,但是需要较高质量原始数据和配套知识资源。
在何世柱看来,自然语言问答与精准知识问答、聊天机器人的区别在于——精准知识问答主要回答知识性问题,首先答案要准确,其次在准确的基础之上才能够满足情感的需求,能够用自然语言的方式去回复。
“对于问答任务而言,关键是资源和已有模型能否满足需求,事实上目前的内容缺失严重,资源远远不够,模型数量也较少。 目前开放域的问答系统其性能还远没有达到使用的程度,但在限定领域还有很大应用空间。” 何世柱总结道。
以上内容是51CTO记者根据WOT2019全球人工智能技术峰会的《知识图谱》分论坛演讲内容整理,更完整WOT内容请关注51cto.com。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】