12张图、6个故事,终于有人把图数据库的原理讲明白了

数据库 新闻
你知道图数据库(图计算)作为前沿技术近年来发展迅猛的关键是什么吗?其实,其伟大之处在于它并不是一个全新的事物,而是人类在追求科学与技术发展的探索中对图思维方式的一次伟大复兴。

人类到底是如何思考的呢?显然,这是一个没有标准答案的问题。

但如果我们把这个问题提炼成一个数学问题,并用数学的语言来描述它的话,人类在本质上是用图的方式来思考的。

我们身处的这个世界是高维的、关联的、不断延展的,我们从来到这个世界到离开它的那一刻,一直都在与这个世界互动——我们每时每刻接触的所有的实体(一个个人、一件件事、一条条新闻或旧闻、一个个知识点、一本本书,甚至一缕缕情绪),这些实体都存储在我们的大脑(记忆)中。【注:在图数据库术语中,实体(Entity),也称之为点(node)或顶点(Vertex)】

人脑很像是一台设计精密的计算机,同时还拥有一种能够无远弗届的思维能力,什么是“无远弗届”?即没有思绪触达不到的地方,这其实就是一种超深度的图检索、图遍历的能力。早在上个世纪40年代,社交网络的概念还没有被发明出来之前,研究人员就已经试图用图网络的模型来描述和解释大脑的运作机制了。

图片

▲图:用网络图的模型来解释大脑运作机制

我们想象一下,带有属性的图,可以用来表达世间一切事物,无论它们是关联的还是离散的。当事物是关联的时候,它们形成了一张网络;而当它们离散开来的时候,则更像是关系型数据库的表中的一行行的数据(笔者在这里要表达的要点是:图是高维的,但是高维可以向下兼容并表述低维空间的内容,反之则不成立。或者说用低维的关系型数据库来表达高维的图则极其困难,通常是事倍功半甚至无功而返)。所以说,图的表达方式和人类大脑神经元网络——如何存储与认知事物有着极大的相通性!

图片

▲图:传统的关系数据库与图数据库对比

我们总是不断地在关联、发散,再关联、再发散,而当我们需要定位并搜索某个人或事物的时候,我们是通过一种哈希化的方式直接定位找到那个实体的,这个搜索过程并非关系型数据库搜索加速中用到的常见的以树状索引为主的技术。【注:哈希是一种数据结构,又称为相邻哈希(Adjacency Hash或Adjacency Hash<*>)】

而当我们进行举一反三式的发散思维的时候,我们相当于在图或网络上面进行某种实时过滤或动态遍历搜索。当我们说一个人上知天文下知地理的时候,当我们在“旁征博引”的时候,我们似乎让思绪从一张图上跳到了另一张图上,而我们的大脑存储了很多张图,这些图或联动或互动,根据我们的需要随时来提供服务。如果图数据库可以实现同样的人脑运作的方式,那么有什么理由不能相信图数据库就是终极的数据库呢?当然,前提是我们得在下面这一点上达成共识:人脑就是终极的数据库。我们甚至可以说,在强人工智能可以实现之前,让图数据库先成为终极的人工数据库或许是一条必经之路。

举个例子,脑海中想到你最喜欢的一道菜——红烧肉,你是怎么想到它的?按照现代web搜索引擎技术,输入“红”字,推荐出“烧”字,再输入“烧”字,推荐出包含“红烧肉”字样的列表——或许人类的大脑并不是严格意义上用了这种倒排索引的搜索技术,但是这并不重要,因为定位到“红烧肉”只是我们的一个起点,在图思维方式中,如何延展到后续的诸多节点才是关键。

从红烧肉开始,你或许会想到湖南红烧肉、东坡肉、苏东坡、宋词、李清照、岳飞、文天祥、崖山海战、忽必烈、成吉思汗、蒙古西征……所谓举一反三、旁征博引,大抵如此。

图片

▲图:由红烧肉引发的思维关联

当我们的思绪定位在某一个知识点的时候,只要我们想,它就可以一步步地关联下去——从红烧肉到湖南红烧肉是一个细化分类的1步关联操作,从湖南红烧肉到苏东坡也是如此。以此类推,上面的例子中的一连串的“旁征博引”实际上是一个在图数据库(或知识图谱)中不断关联(属性图过滤或剪枝)操作的过程。

以下图为例,从坦博拉火山爆发到滑铁卢之役、自行车发明、印象主义的诞生,凡此种种的跨越时空的“蝴蝶效应”揭示了万物皆关联的本质。直面大脑是如何思考的这类问题最直接的回答就是——我们天然是用图的思维方式!

图片

▲图:从火山爆发延展出的蝴蝶效应

我们学到的每一个知识都不是孤立的,这些与日俱增的知识点构建起来了庞大的知识网络,让我们随时可以从中抽取、归纳、整理、编织、推导、关联。人类历史上所有的智者、文豪、天才、贩夫走卒、路人甲乙,他(她)们的每一次惊世骇俗的灵光乍现或平常之极的循规蹈矩都是在用图的思维在实践。灵光乍现只因为在图思维的道路上延展得更深、更广、更快;循规蹈矩只是在图思维上走得太浅层。

为了更好地说明问题,我们以《三字经》为例,来分析一下人是如何以图的方式阅读思考的。

图片

▲图:传统启蒙读物《三字经》中“孟母三迁”故事

读到“昔孟母,择邻处”这句话时,短短的6个字在我们脑海中形成了一张简单的网络(图),其中包括孟母、孟子的形象,并从他们母子之间的关系发散、推导到更多关联的实体,最终形成一张“显而易见”多步关联图谱,如下图所示。(对于那些初次接触《三字经》或孟母故事的读者,当你了解一个个知识点的过程就是在构造关联知识图谱的过程,一旦图谱形成后,就可以像调用图数据库一样随时对它所存储的图谱进行查询与分析。)

图片

▲图:由孟母三迁推演出“择邻(教育环境)处”的决策路径

类似的,“融四岁、能让梨”,其背后所反映的历史名人故事,在我们的脑海中也是以一张简单的图的形式存在的。

我们无时不在地将每个文字、每个词组关联、发散、再关联……从孟母择邻处的故事中,我们的大脑推演出了很多字面上没有直接表达的内容,从孟母的居所选择分化出:

  • 好邻居vs.坏邻居
  • 上进子女vs.厌学子女
  • ……

这种推演让我们从逻辑层面清晰地理解了孟母的“择邻处”的决策。而孔融让梨的故事则是一种图上的行为模式的对比分析:4岁的孔融vs.4岁的普通孩子,由此或可引出中国人的那句老话:三岁看小七岁看老。

图片

▲图:传统启蒙读物《三字经》中“孔融让梨”的故事

图片

▲图:孔融4岁VS.普通孩子4岁

我们再来看一个《三字经》中的例子:“有古文大小篆,隶草继不可乱”,从大篆到小篆,再到隶书、草书,中国书法史的沿革与脉络清晰可见。

图片

▲图:《三字经》中的汉字之演变

每一种书法的时代特征(肇始、鼎盛、衰落、中兴、延续)以及它们各自的来龙去脉,各自的代表人物、作品,这是一张可以无限延展的网络,但是当我们聚焦并把延展的幅度限定得很小的时候,我们可以得到如下的一张小图谱。

图片

▲图:图解书法演变历程

在本质上,每一张网络都是一张图。每一个人的脑子里面都装满了图,善于利用图去思考、去发散、去归纳总结、去融会贯通。如果一张图不能解决问题,那就再加一张!

通过本文的背景介绍,希望读者能够做好准备,更好地进入图数据库的世界。

本文摘编于《图数据库原理、架构与应用》,经出版方授权发布。(书号:9787111708100)转载请保留文章来源。

责任编辑:张燕妮 来源: Ultipa
相关推荐

2022-08-15 19:24:35

图数据库图计算搜索

2021-06-29 11:21:41

数据安全网络安全黑客

2020-11-30 08:34:44

大数据数据分析技术

2022-01-05 18:27:44

数据挖掘工具

2022-04-12 18:29:41

元数据系统架构

2022-04-22 11:26:55

数据管理架构

2021-06-13 12:03:46

SaaS软件即服务

2021-10-09 00:02:04

DevOps敏捷开发

2022-03-27 20:32:28

Knative容器事件模型

2022-04-27 18:25:02

数据采集维度

2021-12-03 18:25:56

数据指标本质

2022-09-03 18:39:29

数据库图谱

2022-05-01 22:09:27

数据模型大数据

2021-11-19 06:50:17

OAuth协议授权

2020-10-29 06:09:37

数据中台数据大数据

2022-04-18 07:37:30

数据信息知识

2022-05-09 20:23:51

数据采集

2021-11-07 21:01:52

云计算数据库分布式

2021-03-03 21:31:24

量化投资利润

2021-02-14 00:21:37

区块链数字货币金融
点赞
收藏

51CTO技术栈公众号