1.1知识图谱的发展历史
知识图谱始于20世纪50年代,至今大致分为三个发展阶段:
• 第一阶段 (1955年—1977年)是知识图谱的起源阶段,在这一阶段中引文网络分析 开始成为一种研究当代科学发展脉络的常用方法;
• 第二阶段(1977年-2012 年)是知识图谱的发展阶段,语义网得到快速发展,“知识本体”的研究 开始成为计算机科学的一个重要领域,知识图谱吸收了语义网、本体在知识组织和表达方面的理念,使得知识更易于在计算机之间和计算机与人之间交换、流通和加工;
• 第三阶段(2012年—至今)是知识图谱繁荣阶段,2012年谷歌提出Google Knowledge Graph,知识图谱正式得名,谷歌通过知识图谱技术改善了搜索引擎性能。在人工智能的蓬勃发展下,知识图谱涉及到的知识抽取、表示、融合、推理、问答等关键问题得到一定程度的解决和突破,知识图谱成为知识服务领域的一个新热点,受到国内外学者和工业界广泛关注。
知识图谱具体的发展历程如下图所示。
案例讲解素材
近年来,随着语义Web的兴起,本体技术受到了广泛关注。很多大型跨国公司都开始研究本体技术。谷歌于2012年提出了知识图谱的项目,旨在利用本体技术来提高搜索的精度和更智能化的知识浏览。国内的互联网公司,如百度、搜狗,也已经开展这方面的项目。微软提出了Probase项目,旨在通过爬取网页中的信息来构建大规模的本体。IBM利用语义Web技术来处理异构医疗数据的整合以及更准确的查询回答。本体技术在IBM的著名问答系统Watson中发挥了重要的作用。Oracle实现了一个强大的语义数据推理和索引系统。本体技术还受到欧美政府的支持。英国政府发起了http://Data.gov.uk项目,把很多政府网站的信息都以本体的形式分布。而美国政府也有类似的项目。学术界对本体的研究有很多成果,特别是在计算机科学领域,有很多实用的技术被开发。欧盟在最近5年投入大量科研经费(累积超过数亿欧元)用于本体相关的研究。
1.2 知识图谱的重要性
哲学家柏拉图把知识定义为“Justified True Belief”,即知识需要 满足三个核心要素:合理性(Justified)、真实性(True)、被相信 (Believed)。简单而言,知识是人类通过观察、学习和思考有关客观世界的各种现象而获得和总结出的所有事实(Facts)、概念(Concepts)、规则或原则(Rules & Principles)的集合。人类发明了各种手段来描述、表示和传承知识,如自然语言、绘画、音乐、数学语言、物理模型、化学 公式等,可见对于客观世界规律的知识化描述对于人类社会发展的重要性。具有获取、表示和处理知识的能力是人类心智区别于其它物种心智的重要特征,知识图谱已成为推动机器基于人类知识获取认知能力的重要途 径,并将逐渐成为未来智能社会的重要生产资料。
n 知识图谱是人工智能的重要基石。
n 知识图谱推动智能发展。
n 知识图谱是强人工智能发展的核心驱动力之一。
知识图谱是Google在2012年5月17日提出的,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。当前的人工智能技术其实可以简单地划分为感知智能(主要是图像、视频、语音、文字等识别)和认知智能(涉及知识推理、因果分析等),知识图谱技术就是认知智能领域中的主要技术,是人工智能技术的组成部分,其强大的语义处理和互联组织能力,为智能化信息应用提供了基础。
一个知识图谱旨在描述现实世界中存在的实体以及实体之间的关系。随着人工智能技术的发展和应用,知识图谱作为关键技术之一,已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。
从使用范围来说,知识图谱分为通用知识图谱和领域知识图谱,通用知识图谱强调的是广度,数据多来自于互联网,而领域知识图谱应用于垂直领域,成为了基础数据服务。
1.3 知识图谱的定义
知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱 给互联网语义搜索带来了活力,同时也在智能问答中显示出强大威力,已 经成为互联网知识驱动的智能应用的基础设施。知识图谱与大数据和深度 学习一起,成为推动互联网和人工智能发展的核心驱动力之一。
技术标准化研究院 知识图谱不是一种新的知识表示方法,而是知识表示在工业界的大 规模知识应用,它将互联网上可以识别的客观对象进行关联,以形成客观世界实体和实体关系的知识库,其本质上是一种语义网络,其中的节点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。知识图谱的架构,包括知识图谱自身的逻辑结构以及构建知识图谱所采用的技术(体系)架构。知识图谱的逻辑结构可分为模式层与数据层,模式层在数据层之上,是知识图谱的核心,模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。在知识图谱的数据层,知识以事实(fact)为单位存储在图数据库。 如果以“实体-关系-实体”或者“实体-属性-性值”三元组作为事实的基本表达方式,则存储在图数据库中的所有数据将构成庞大的实体关系网络,形成“知识图谱”。
知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规模的知识库。
如上图所示,知识图谱中包含三种节点,其基本形式为(实体1-关系-实体2)、(实体-属性-属性值)。
实体:指的是有可区别性且独立存在的事物。如某个国家:中国、英国等;某个城市:北京、伦敦等。
语义类:具有某种特性的实体构成的集合,如国家、城市、民族等。
属性值:实体指向的属性的值。例如中国(实体)面积(属性)960万平方公里(属性值)。
关系:在知识图谱上,关系是把kk个图节点(实体、语义类、属性值)映射到布尔值的函数。
基于上述的语义图概念,我们可以构建一个国家的知识图谱作为例子,如下图所示: