盛大创新院搜索主题院研究员贾文杰:面向搜索的中文分词系统
盛大创新院搜索主题院研究员贾文杰做了《面向搜索的中文分词系统》的主题演讲。他认为“无论是搜索还是推荐,做中文的互联网智能化处理,分词就是一个必不可少的步骤。”
分词应用的地方***个是搜索,使用分词使得词表大大扩大,基于词做索引,后面的链条会大幅减少,倒排列表缩减会减少时间;第二个应用是上下文广告,比如推荐系统,“不管是做阅读、视频还是图片,或者是电商,基于内容相似度做推荐,不管是基于空间模型还是短本做推荐,***步分词。”
贾文杰介绍,中文分词的难点***个是切分歧义,对于语言单位有多种方法,第二个难点是未登录词,做分词系统没有的词或者是没有出现的词。
基于此,中文分词目前常见的算法包括无指导切分、基于词典的机械分词、基于语言模型的切分,基于字标注的切分。其中基于语言模型的方法是最常用的方法。
“做这样的分词系统有哪些核心工作要做呢?***个,原子词识别,一些简单的命名实体,包括网址、时间、数字、日期,难点是规则整理,比如时间的表达非常多。第二个模块命名实体识别,除了前面的命名实体,剩下的主要是人名、地名、机构名,基于正则表达式写不出来,怎么来做?基于序列标注方法做,用一些方法把不在词典的词找出来。”
训练语言模型需要收集分词的语料库,目前的语料库有富士通和北京大学做的人民日报语料库,宾州中文树库,台北中研院的树库。
人民日报语料库有1400万词,是***语料库,但是问题是缺少新词,创立年限太久,表达方式语序发生了很大变化,还有规模仍然不够大。
贾文杰介绍了盛大创新院推出的盛大云分词,它的优点是是分词结果较好,分词更快、而且是活的分词,分词保持不断更新,再者针对搜索进行了优化,***还支持中英文之外的其他语言分词。
搜狗自然语言处理助理研究员张帆:搜索查询意图识别
搜狗自然语言处理助理研究员张帆做了《搜索查询意图识别》的主题演讲,他认为意图识别是知道用户想干什么,以便更好地满足用户需求。
现有的搜索引擎分为两类:通用搜索引擎和垂直搜索引擎,两种搜索引擎各有特点。通用搜索引擎抓取互联网上一切有价值的东西、统一建立索引,以关键字匹配为基本检索方式,以网页title和summary为展现方式。通用搜索引擎以百度、谷歌、搜狗、搜搜、有道为代表。
垂直搜索引擎以一定类别为主题,只抓取与主题相关的信息,更具主题特点有针对性的建立相应的索引检索方式,筛选方式以及展现方式,以机票搜索、地图搜索、购物搜索等为代表。
“通用搜索引擎的缺点是通用,不够准确,垂直搜索引擎的缺点是用户需要记住多个网站。有没有办法将二者结合?”张帆如此表示,“识别查询词对应的垂直搜索,并从中获取结果嵌入到通用搜索引擎中,可以为用户提供很好的体验。”这也就是意图识别用途。
意图识别的难点包括:输入不规范、意图太多、意图强度的区分、语料持续准确获取、搜索结果的可靠性、时效性的问题。
张帆提出了进行意图识别的几个方法:
词表穷举法,最简单直接的方法,通过词表的直接匹配来获取查询意图,它的实现方法是建立白名单系统、建立词表扩展系统、建立词表预处理系统,这种方法优点是简单易实现,缺点是召回比较低,人工比例较高。
规则解析法,适用于一些查询索然不集中淡非常符合规则的类别,通过规则解析查询来做一同识别和关键信息提取的。比如汇率查询、计算器、度量衡等。它的优点是信息提取准确,不足是只适用于规则性较强的类别。
统计模型分类法,一般有两种分类,一种是基于查询词本身的分类,另一种是基于查询词结果进行分类,这种方法适用于一些查询较为分散,且规则不明确的类别。这是最常用的方法,覆盖面***的方法。这种方法的不足是实现较为复杂,数据获取、更新困难。
张帆介绍称,除此之外,还有一些特殊的意图识别方法,比如微博类意图识别,实现方法是对搜索结果进行时效性判断。
张帆认为,意图识别未来的发展的几个方向是无类别概念的意图识别,个性化意图识别,精准意图识别以及语音应用的意图识别。(张睿)