面对突如其来的疫情,大众对于信息的即时性、透明度和传达效率有了更高的关注。在此背景下,北京市经济和信息化局和CCF大数据专家委员会,联合北京智源人工智能研究院,共同举办了科技战疫·大数据公益挑战赛。一支名为“郁金香”的算法团队在595支参赛队伍中表现突出,取得了A榜第二、B榜第三的不俗成绩。
据悉,郁金香是一支算法和工程经验丰富的业界团队,其成员以一览群智公司成员为主,也有来自于印信科技的得力外援。成员都是深耕NLP深度学习、信息检索/互联网搜索、数据挖掘等领域的资深专家。整个算法开发从立项到测评结束历时30天。
本次比赛通过DataFountain平台进行,围绕“疫情政务问答助手”这一赛题展开。疫情政务问答助手旨在通过对惠民惠企政策数据的收集与处理,通过人机对话式问答的方式,对用户提出的政策疑问快速、准确地定位相关政策文档以及其内相关内容返回给用户,帮助各行业企业准确掌握相关政策,更好地复工复产。
疫情政务问答是一个结合全文检索和阅读理解的复杂任务,其任务设置非常贴近人类在面对信息时的判断逻辑:面对问题,参赛系统不光要找出文档库中的相关文档,还要定位出其中跟问题最相关的内容。这就跟人类在文档中检索时的流程类似:为什么这个文档与问题最相关?是因为里面有这么一段话,能够最好地回答待解决的问题。
有的放矢:直面“疫情政务问答”的复杂性
对于学界大部分机器阅读理解任务的数据集,提问及其答案所在文档往往是直接对应的,阅读理解模型无须在海量文档中去寻找相关文档。但在真实场景中,对于用户给出的一个问题,首先我们需要确定其答案在哪个文档中,然后才能通过阅读理解模型来找出实际答案。而这个答案文档往往需要通过检索这一步骤得到。因而在疫情政务问答这个任务中,其中有两个因素会影响任务效果:其一,检索模块不一定能够保证精准召回包含答案的文档;其二,在召回的多篇可能存在答案的文档里,正确答案所在的位置不确定。而且政务文档篇幅一般都很长,答案可能也很长,这也会加大任务难度。
在信息检索和认知智能方面的深厚经验和快速迭代改善模型的能力,是郁金香团队成功的两大关键。郁金香团队采用基于ElasticSearch的全文检索模块和基于Transformer结构的阅读理解模型方案,综合展示了其在问题理解、内容搜索、答案提取等多个环节的全面算法能力。问答系统主要分为“信息检索”和“阅读理解”两部分。“郁金香”在设计疫情政务问答系统时以竞赛为目标、实用性为导向,针对疫情文本的领域特殊性,在整个方案的细节上进行了多重优化。整体方案在竞赛中取得了优异成绩,也再次验证了相关文本理解技术通用方案的先进性。
在竞赛中,郁金香团队攻克了几大技术难题:
难题1:中文分词作为中文自然语言理解中的基础技术,其准确程度直接影响着下游任务的效果。在ES中,ik是常用的中文分词工具。但由于政务文本的领域特殊性,ik工具的效果受到很大限制。
应对1:针对政务文档的特殊性,郁金香团队利用多种语义理解工具,对文档进行语义信息理解, 通过对文档进行深度解析,提取出其中的实体名词、长名词、专有名词、新词等关键要素,构建了自定义词典,以保证实际分词效果。
难题2:检索模块中一种常见的误召回是由于事件主体不匹配导致的。举例来说,有人提问:“苏州市如何推行政务服务事项网上办理?”检索结果可能是其他地区“推进政务服务事项网上办理”的相关内容。
应对2:在政务问答请求中,文本的事件主体往往是唯一且一致的。所以在文本理解中,郁金香团队进行了事件主体的提取,来保证事件主体相匹配。同时为了避免强规则过滤造成的误杀,方案将事件主体放到了一个新的索引域中。查询时如果问句中能够发现事件主体,就增加对事件主体索引域的查询。此外,对于请求中的行政区划类事件主体特别设置了对于其上级行政区划的容错处理。
难题3:赛题训练数据较少,阅读理解模型泛化能力受限。
应对3:郁金香团队采用集成学习技术,实现了全面的融合模型方案,集成模型中内含了近二十个基础模型,并对不同模型智能分配权重。权重的分配取决于模型在验证集上的表现。对于使用全量数据训练的模型,其权重更高。同时加入Fast Gradient Method(FGM)算法,生成对抗样本,进一步提高模型的泛化能力。
难题4:政务文档往往很长,远超阅读理解模型的长度限制。在进行阅读理解任务时,长文档需要被截断成多个文本片段。然而简单的进行定长截断很容易让答案丢失,并脱离上下文语境。
应对4:郁金香团队发现绝大部分答案都是在一个句子中,所以采用了基于中文分句的分段算法进行文本预处理。具体来说,将中文分句后的句子序列作为文本基本片段,规定最长子段落是满足最长序列长度的最长连续句子序列,得到满足条件的片段。进而通过衡量两个子片段的交叉度,优化子片段整体冗余度,来选取切分合理的子片段,以保证消除冗余的同时也能降低答案丢失的风险。
多点开花:智能语义搜索引擎的应用
这一智能问答系统的方案不仅在竞赛中有出色表现,也已经在智能搜索、智能问答方面实现了应用落地。此方案以自然语言作为交互形式,极大提高了用户体验。
据了解,华夏基金研报智能搜索系统就是应用该方案的典型之一。券商的研报对股民价值很高,但研报长,文字多,投资者要从中获得对自身有益的投资参考往往耗时耗力。如今,这一研报智能搜索系统针对研报中的预评级、跟踪报告、走势图、调研纪要、投资建议等搜索意图,通过NL2SQL以及结合研报问答助手的阅读理解,能帮助投资者更快、更简单、更高效的读懂研报。只需要一个以日常语言的问题,相关关键内容即时展现,极大提高了信息获取的效率。
此外,基于该技术方案的智能语义搜索引擎产品支持不同行业不同领域的场景拓展。这一产品用知识图谱融合行业领域内的知识库,集成问答助手模型通过自然语言“问答式”的语义输入为用户提供更精准的智能检索服务。
面向政府,这一搜索引擎可以针对政府内海量数据的治理、语义解析、智能查询,助力政府搭建智能化信息综合应用平台;面向电商,支持针对电商领域目标商品的精准检索,可根据用户画像推荐更为个性化的搜索结果;面向媒体,支持大型媒体网站的应用场景,将海量信息进行深度整合,深度挖掘数据价值;面向金融,通过整合金融市场信息,进行动态获取、解析,为金融机构提供更全面、精准的金融数据和信息;面向公安,基于公安系统的行业特点,可以提供针对公安行业的信息检索、问题研判和知识管理平台。
传统的搜索引擎一般是通过简单机械式的条件组合进行查询,交互体验较差,列表形式过于单一,而且针对多源异构数据的处理能力不足。相较而言,智能语义搜索引擎产品支持多源异构数据融合,搜索结果形式呈现多样,支持针对自然语言“问答式”的语义输入,搜索功能强大,搜索结果也更为便捷。
【小结】基于语义理解的智能对话、智能搜索越来越多地深入我们的日常生活。放眼未来,相关应用将能依托基于世界构建的巨大的知识图谱,结合语义理解,提供给用户前所未有的便捷体验。相比传统的检索技术,以语义理解为基石的智能对话、智能检索为人机交互提供了更智能、更高效、更善解人意的互动。当搜索不再限于几个关键词的形态,当搜索引擎对各垂直领域连接程度逐渐加深,智能对话、智能搜索可能真正实现“无处不在”。