欧洲研究人员最近开发出一种语义网格浏览器,其能理解生命科学中的科学术语,也能自动寻找额外的资源和服务,这或许能发展为下一代智能搜索引擎。
生命科学界已为基因测序和疾病信息建立了众多的数据库,这些数据库可以网格服务的形式提供给研究人员。欧盟对一个称为Sealife的项目进行了资助,该项目旨在设立一个语义网格浏览器,以更容易地为生命科学研究提供网格服务。
Sealife项目协调员、德国德累斯顿理工大学的迈克尔·施罗德说:“网格计算本质上就是建立独立于物理位置的虚拟组织。问题是如何将这些服务链接到可在网站上找到的其他科学信息。我们先有了网络,又有了拥有许多服务器的网格计算。一个语义网格浏览器则可将它们无缝地集成在一起。”
我知道你想要什么
语义网格浏览器会试图理解其在网络上发现的东西,解释其内容,然后链接至可能对用户有用的服务器。Sealife语义浏览器的关键是语义超链接,它可通过显示页面将用户引导到相关服务器。这个链接不是由网站而是由浏览器本身引导的。
首先,浏览器需要理解页面的内容,并识别出可能链接至网格服务器的术语。Sealife项目的一个典型的测试例子就是基因。施罗德指出,每个人类基因平均有5.5个名字,如果它能够被正确地识别,语义浏览器就能提供含有此基因更丰富信息的链接
浏览器还能处理模棱两可的意思。譬如,“美洲虎”可能指的是一种动物,也可能是一辆汽车,还可能是Mac操作系统。Sealife语义浏览器可使用专门的算法从页面上的相关词语来进行判断,并对其含义作出正确解释。
虽然语义网格浏览器还称不上是完备的科学,但Sealife算法在与其他50个算法的国际竞争中已脱颖而出,其算法成功率高达87%%。
背景知识是基石
第二项挑战则是使浏览器理解所需识别术语的背景知识。这些知识被称为“本体论”(ontology),本体论本是哲学概念,它是研究存在的本质的哲学问题。但近几年,这个词被应用到计算机界,并在人工智能、计算机语言以及数据库理论中扮演着越来越重要的角色。
在实现上,本体论是概念化的详细说明,一个本体论往往就是一个正式的词汇表,其核心作用就在于定义某一领域或领域内专业词汇及他们之间的关系。这一系列的基本概念如同一座大厦的基石,为交流各方提供了一个统一的认识。
在这一系列概念的支持下,知识的搜索、积累和共享的效率将大大提高,真正意义上的知识重用和共享也成为可能。按照广义分类法,生命科学就是语义网格浏览器的一个理想领域。所有这些建设有层次的分类系统的努力已成为生命科学世纪的核心。
但在生命科学之外,这样的系统分类发展得还不尽如人意,Sealife项目已能从任何感兴趣领域的已出版文字中创建编辑器来建设本体论。
施罗德说:“我们开发的算法可对此数据进行仔细分析,确定关键概念,然后本体论编辑器会将这些概念提供给用户。如果用户同意,它就能搜索网站找到那些看起来与定义相像的内容。建立这个背景知识的整个过程是不能完全自动化的,但可大大缓解用户在这个建立过程中的痛苦。”
Sealife项目的不同伙伴建立了各种版本的浏览器,这些伙伴分布在爱丁堡、曼彻斯特、伦敦、索菲亚—安蒂波利斯和德累斯顿。他们已在医学、科学和专利文献挖掘和分子生物学等3种情形下以传染病为重点进行了测试。
会发展为下一代搜索引擎吗?
德累斯顿项目组成立的一家新公司在利用Sealife项目成果方面取得了很大成功。该公司已将浏览器销售给像巴斯夫、联合利华这样的大客户,其GoPubMed搜索引擎可链接至PubMed(美国国家医学图书馆期刊文献检索系统)中的生物医学文献档案。
PubMed是美国家医学图书馆(NLM)下属的国家生物技术信息中心(NCBI)开发的、基于WWW的查询系统。PubMed也包含着与提供期刊全文的出版商网址的链接,来自第三方的生物学数据,测序中心的数据等等。PubMed提供与合成分子生物学数据库的链接与接入服务,这个数据库的内容包括:DNA与蛋白质序列、基因图数据、3D蛋白构象及人类孟德尔遗传在线等。
但是,没有任何理由仅将语义浏览器的应用局限在专业学术领域。我们能否拥有一个可理解一切的浏览器呢?施罗德认为这看似有些牵强,但也并非完全不可能。他说:“我们的目标是要涵盖任何领域,如果我们能将维基百科中的知识加以提取并程序化,我们就能拥有覆盖所有领域的通用背景知识。”
许多研究人员正期待着下一代搜索引擎的问世,它们将能理解用户想要寻找的东西,并返回比现今搜索引擎所能提供的更多的相关结果。这将涉及到信息的整合化,因为很多时候问题的答案并不能在一个文件中全部找到。
研究人员称,未来,背景知识将成为Sealife的核心。将语义引入搜索引擎可使其得以扩展,如此,下一代搜索引擎的横空出世也将不再遥远。
【编辑推荐】