多年来,自然语言技术一直被认为是人机界面的“乌托邦”梦想。也即人们对计算机说出一句话,计算机就能够理解并迅速响应。然而,在现实应用中,人们使用最为频繁的,还是基于关键词的搜索引擎。近年来,搜索引擎技术也在迅猛演进,从“关键词搜索”到“SNS搜索”,再到“实体搜索”,搜索引擎变得越来越智能与社会化。为此,记者采访了百度资深研发工程师辜斯缪。在辜斯缪的描绘下,一个搜索引擎的智能未来,正在我们眼中呈现。
记者:辜斯缪您好!请问一下近年来搜索引擎技术有什么发展?
百度辜斯缪:作为搜索引擎行业的领导企业,百度一直在致力于搜索技术的研发和推进。就我个人观察,近年来搜索引擎呈现出“关键词”-“SNS”-“实体搜索”的递进式发展,其搜索对象也从“信息片段”到了“人”以及“实体”。
记者:关键词搜索大家都很熟悉了,SNS搜索和实体搜索是怎么回事呢?
百度辜斯缪:其实你比如百度空间、百度知道、百度贴吧这些社区式的服务,当然还有比如微博这样的服务,实际上是将人聚合在了一起。SNS搜索,实际上就是可以让你找到你感兴趣的人,这个大家也都有体会。你看到百度空间、百度知道、百度贴吧、微博上有令你感兴趣的内容,你也能进一步找到这个人,和他/她交朋友。
而实体(entity)搜索是相对于关键词(keyword)搜索而言的。关键词搜索是只能针对你输入的关键词去检索,搜索引擎按照字面意思勤勤恳恳的去找。
实体搜索关注的重点不是“关键词”级别的信息,而是“对象”,比如:人,电影,软件,小说,公司,组织等等。从关键词向实体转化,将从更精细的角度来理解和组织搜索结果。在一定程度上可以理解query(即用户搜索需求)的意思,并直接给出答案。 一些更智能更个性化的交互也依赖于实体作为基础,比如搜“张艺谋导演的电影”。
记者:这让我想起统计学的一个概念“集合”?
百度辜斯缪:是的,很多时候用户的需求就是这样,只知道想找某一类东西,但并不明确具体要找的东西叫什么。对于这样的需求,过去是一筹莫展的,而我们现在却能够智能的搜索到结果,并组织成一个集合呈现给用户。事实上,百度在揣度用户心思的方面做了很多努力,希望尽可能的识别出用户的需求,哪怕用户对需求的描述是多样化的或者不规范的。
记者:比方说,我买了同仁堂这只股票,我搜索“同仁堂”也可以找到它的股票行情,或者搜索“600085”的股票代码也可以搜索到它的行情?
百度辜斯缪:是的,现在的搜索引擎可以认为已经有了一定的人工智能,能够猜到你到底要搜索什么并且能够直接给你推送相关的结果。传统搜索引擎只能“返回”用户下的指令,实现不了智能的“发现”。比如你搜索“秋天开花的树”,需要在搜索结果中不断去手动探索答案。而实体搜索,用户只需要通过一次点击,就能得到想要的结果。之前需要用户亲自执行的中间繁复的筛选+搜索的过程,全部由实体搜索代替用户完成。
记者:这个挺有意思的,通俗说,搜索引擎能明白人类想要搜索什么了,就直接凭借经验给出结构化的答案了。这是怎么实现的呢?
百度辜斯缪:在实体搜索方面,百度采用了深入的语义分析技术,从分析实体属性方向进行算法创新。
实体搜索超越了传统搜索只按关键词的字面进行信息查找的层面,比传统搜索更加智能。这表现在实体搜索对关键词的分析更加精细,先分析出关键词中的实体类型,比如:动植物,人,软件,小说等,再分析出关键词中包含的有关这个实体的属性,比如:好看的,不掉毛的,防辐射的等等,充分理解关键词想表达的意思,得到用户搜索时真正的需求。
记者:您刚才提到的这个,应该是要在后台建立一个“实体”的标签集合吧?那这个工作量很大,百度是通过人工还是技术完成的?
百度辜斯缪:人工的成本和效率都不具备实操性。作为一家技术起家的公司,百度在这方面有自身长期的积累。我们是通过数据挖掘技术来完成实体信息获取、属性挖掘、关联信息挖掘的。
实体搜索背后,需要有一个关于实体的信息数据库,库里的信息既要包含海量的实体信息,还要有能精确描述实体的相关属性。实体库的建设需要长期的积累和强大的数据挖掘技术,这正是百度的长处。百度从互联网海量的网页中挖掘出有效的实体,对这些实体进行分类,并能把关键的属性也进行分类,保证了实体信息的广度,也保证了实体属性的精度。
通过百度独特的数据挖掘技术,实体搜索能做到的不仅目前可见这些,还能提供更复杂的信息。比如实体之间的关联。像人与人之间的关系,通过获取到的资源,仅从字面信息是不能完全分辨的,需要更进一步的挖掘和分析。比如明星的人物关系。最简单的是家庭关系,从一张网页的字面信息就能直接获取,明星之间的朋友关系就复杂一些,不能从一张网页上得到,而是需要对明星人物相关的页面进行整理,提取其中的相关信息,通过分析和比较,才能得出结果。
记者:这太神奇了,以前还真没有注意到。百度现在“实体搜索”已经占到了多大比例,未来的发展会怎样?
百度辜斯缪:目前比例还是非常小,在未来,“实体搜索”会越来越扮演一个重要的角色,为广大的百度用户提供更加智能化的搜索体验。
记者:其他搜索引擎可能也在做类似“实体搜索”的技术和体验,百度相对竞争对手的优势在哪里?
百度辜斯缪: 百度多年来一直致力于中文搜索技术的研发,积累了大量的资源和技术,其中就包括“实体搜索”所依托的知识挖掘技术以及用户需求识别技术。同时,我们一直在深入理解用户行为,设计最能够满足用户需求的产品。所以我们不会受特定的产品形式的限制,会有更多更有用也更有趣的产品推出来,请大家拭目以待。