在5G、物联网、人工智能等技术的推动下,企业数据呈现爆发式增长,数据间的关联复杂度也随之剧增。在处理这些杂关联数据时,传统关系型数据库运算效率较低,难以进一步挖掘海量关系数据背后的价值。
为了更好地利用数据间的连接,企业需要一种将实体间的关系进行存储、灵活拓展数据模型的数据库技术,这时图数据库出现了。
Gartner指出,图分析是未来公司可持续竞争力唯一且最有效的数据处理手段。Forrester则将图形数据平台确定为一种新兴技术,使企业能够生成快速解决复杂问题所需的见解。
清华大学郑纬民院士认为,图数据库以事物和事物间关系的数据结构存储数据,专门针对复杂关联深链查询优化,成为了近年崛起速度最快的数据库技术。
“全球图数据库市场尚未定型,现在布局正当其时,我们要牢牢把握住这一难得的发展机遇。”
1.图数据库揭示事务之间的关联关系
在企业的众多业务场景当中,企业用户开始关注事物之间的关联关系,希望发现隐藏的关系,这是传统的关系型数据库很难做到的。
解决这一问题的图数据库的基本含义是以“图”这种数据结构做为逻辑结构,存储和查询数据。在图数据库中,图将实体表现为节点,实体与其他实体连接的方式表现为联系(边),可以用这一通用的、富有表现力的结构来建模各种场景。
首先,图数据库是一种NoSQL数据库,也可称为面向/基于图的数据库,是基于图模型的数据库。由于提供了对关联数据最直接的表达,以及图模型对异构数据天然的包容力,因此图数据库技术未来必将成为最热门的技术之一,为企业存储和分析大规模图数据提供强有力的支持。
其次,图数据库和传统的关系型数据库就是图和表的差别。图数据库是用点和边来表达数据之间的关系,是更自然的存储方式,更专注于对象之间的关联,能够直接揭示事物之间的关联关系。因此,相较于关系型数据库,图数据库在处理关联关系上性能提升2~4个数量级。
第三,图数据库的功能是传统关系型数据库的一个拓展,相比较关系型数据库仅支持表结构,图数据支持的图结构更为灵活。图数据库在基于图的数据增加、删除、查询、修改等方面做了不同于其他数据库的设计。
目前,市场上根据图数据库底层存储模式对图数据库产品进行分类,可以分为原生(Native)图存储和非原生(Non-Native)图存储两种。
其中原生图存储数据存储模式专门为存储和处理图而设计优化,可支持各类图算法的快速遍历;非原生图存储则采用关系数据库、面向对象数据库或其它通用数据存储策略存储数据,未专门优化存储方式。
从技术上看,行业专家介绍,图数据库的发展主要有两个阶段:
第一个阶段主要是解决关系网络数据的存储、查询和分析问题,能支持上层应用对关系网络数据的OLTP业务需求,以及离线大规模图数据的OLAP业务需求。
第二阶段的图数据库不光满足OLTP业务和离线OLAP业务,实现实时大规模图数据的OLAP业务。
2.图数据库成为发达国家布局的热门领域
大数据时代,企业业务的增长使得数据量剧增以及数据关联的复杂化,同时,企业对数据价值的期望度也更高。图数据库将成为数据库的热门发展方向之一。
经历了多年的飞速发展,图技术到了爆发式增长的边缘。
Gartner 预计到2022 年全球图处理及图数据库市场将以每年100% 的速度迅猛增长,2020 年保守估计市场将达到80 亿美元。
图数据库是数据库领域近期发展最快的领域之一,据Gartner预言,图数据库很快约占到数据库领域10%市场。
DB Engines近年数据库流行趋势也显示,图数据库相较其他主流数据库受欢迎程度遥遥领先。
需求迸发,自研图数据库生逢其时
图1 三大图数据库进几年的发展态势
国内外新兴的图数据库初创企业融资规模不断扩大,在国内一些企业的融资额达到数千万美元级别。众多互联网企业纷纷布局图数据库领域。
2021年Cypher 图查询语言已经正式进入ISO 标准,行业标准的出现也是技术成熟化的一个标志。
郑玮民院士认为,当前,图数据库正在成为发达国家在数据库领域竞相布局的新兴热门领域,并已形成初步的市场规模,正处于快速发展之中。
尽管在传统数据库时代,国外企业一直占据国内数据库市场的绝对份额,但在图数据库时代,我们有机会与国外企业同期起步。“全球图数据库市场尚未定型,现在布局正当其时,我们要牢牢把握住这一难得的发展机遇。”
近年来,市场对图技术的认知程度和需求在上升。
目前市场上主要图数据库用户大多在像全球五百强企业这样的大企业,一方面大企业的数据体量和复杂度更高,对图技术的需求更早更强烈;另一方面,这些大企业有足够的资源尝试新技术,是技术应用中的创新者。
从需求端来说,市场上熟悉分布式图数据库技术的企业还非常少,从整个数据库市场来看,只有不到5%的用户使用了图数据库,使用图计算的则更少。
从供给端来说,虽然市场上出现了各种图数据库产品,包括开源和非开源的,但是真正的原生图数据库产品并不多,成熟的自研的商业化原生图数据库产品和图计算产品更是屈指可数。
3.行业应用潜力巨大
图数据库应用涉及众多行业,如社交、电商、金融、零售、公安、物联网等行业,也应用在更多的应用场景中。
在几乎每个行业,都有许多“吃螃蟹者”,首先应用图数据库,受惠于企业业务的发展。
在金融领域,应用机器学习算法和知识图谱的智能风控系统在风险识别能力和大规模运算方面具有突出优势,逐渐成为金融领域风控反欺诈的主要手段。同时国内金融监管的知识图谱迅速发展,出现了如集团派系知识图谱、产业链知识图谱、担保链知识图谱、反洗钱知识图谱等应用。
利用图数据库和知识图谱平台打造的“公安大脑”,针对公安破案时所需的人、事、地、物、组织构建的社会关系网和系统中凝结警察专家研判经验规则和知识,分析推演出案件研判结果,帮助普通警察快速实现基于自然语言交互的人案关系双向可视化自助推演分析,提供精准和效率双提升的高危团伙和高危人员预测预警,助力警察破案事半功倍。
在电信领域,AT&T、Orange、Verizon,以及中国的三大运营商等,依靠图数据库来管理网络,控制访问并支持客户画像。中国移动移动云知识图谱项目将实现了一站式端到端的知识图谱解决方案,通过在线云的方式让用户可以自己构建知识图谱和完成各种应用。
在汽车制造领域,沃尔沃、戴姆勒和丰田等顶级汽车制造商依靠图数据库推动创新制造解决方案。eBay、沃尔玛使用图数据库实现商品实时推荐,给买家更好的购物体验。
万豪和雅高酒店等顶级酒店公司使用图数据库来管理复杂且快速变化的库存。Facebook、Twitter、Linkedin等社交应用用图数据库来管理社交关系,实现好友推荐。
在发展阶段上,行业专家普遍认为,分布式图数据库市场刚刚度过了萌芽期,开始进入了快速发展期,但尚未到达成熟期。
不过大量涌现的图计算需求,正成为图数据库发展的强劲动力。
4.图数据库市场格局还没有成型
市场对图技术的认知程度和需求在上升。目前,市场上图数据库产品不断增加,进入DB-Engines Graph数据库监控范围的产品就达到32款。如下图是2021年8月DB-Engines图数据库排行。
需求迸发,自研图数据库生逢其时
图2 DB-Engines Graph数据库2021年8月排行
虽然图数据库市场的参与者如意增加,但是市场格局还远没有定型。目前,国内进入图数据库市场的企业和产品可以分为三类:
第一类:开源系统及其发行版。
相关调查数据显示,开源图数据库的市场占比达到68.4%。目前,市场上的开源图数据库数量众多,发展参次不齐。
Neo4j是最流行的高度可扩展的开源本地图数据库之一。Neo4j的Graph平台经过优化,可以存储、映射、分析和遍历连接的数据网络,发现不可见的上下文和隐藏的关系。
通过直观地映射数据点及其之间的连接,Neo4j支持智能实时应用程序,包括人工智能、机器学习、物联网、实时推荐、主数据管理、欺诈识别、身份和访问管理等。
Neo4j有社区版和企业版2个版本社。其中社区版是学习Neo4j和不需要大量扩展或专业服务与支持的小型项目的理想选择。开源的社区版本只支持单机,不支持分布式,在 GPL3 许可的开源社区版中提供。
社区版最多支持 320 亿个节点、320 亿个关系和 640 亿个属性。数以万计的社区部署和 600 多个客户利用与 Neo4j 连接的数据来分析和揭示人员、流程、位置和系统是如何相互关联的。
企业版具有与社区版相同的功能,具有企业级可用性,管理以及向上和向外扩展功能。企业版可以部署成高可用集群,从而可以解决高并发量的问题。
Forrester在其报告中认为,Neo4j 企业版包括聚类、多数据中心、高级安全功能、图形分析、视觉图形发现和探索等。
在国内市场,图数据库研发商欧若数网最近宣布已完成800万美元Pre-A轮融资。其核心产品是分布式图数据库Nebula Graph2.0版本已具备云端架构,方便用户随时调取服务,面向社交、支付、金融等领域。
第二类是自主研发系统。
令人欣喜的是,目前我国图数据库领域展现良好的上升势头,出现了许多自主研发的图数据库与知识图谱平台,未来将是中国图数据库应用的主导力量。
作为国内领先的大数据与人工智能软件供应商,星环科技向市场提供基于自主研发的分布式图数据库StellarDB与知识图谱平台Sophon KG,并得到了广泛的应用。
星环图数据库StellarDB是国内第一款自研分布式图数据库,用于快速查找数据间的关联关系,并提供强大的算法分析能力。StellarDB克服了海量关联图数据存储的难题,通过自定义图存储格式和集群化存储,实现了传统数据库无法提供的低延时多层关系查询,在社交网络、公安、金融领域都有巨大应用潜力,可以帮助用户快速开发欺诈检测、推荐引擎、社交网络分析、知识图谱等应用。
在功能上,StellarDB可以提供高性能的图存储、计算、分析、查询和展示服务;具备10+层的深度链路分析能力,提供丰富的图分析算法和深度图算法;支持标准图查询语言并兼容OpenCypher,且具备海量数据3D图展示能力。
在性能上,StellarDB 可支持万亿边规模图数据存储,具备查询速度快、分析能力强、稳定性高的特点。
2021年Transwarp StellarDB通过了信通院图数据库基础能力评测,这是继2019年知识图谱通过信通院大数据产品能力评测后再获权威认可。
在2021年8月爱分析发布的《2021爱分析数据智能平台厂商全景报告》,星环科技凭借成熟的数据智能解决方案和落地能力入选“数据存储与处理”、“图分析”两大场景的代表厂商。
第三类是云服务商。
在图数据库方面,亚马逊云科技、微软,以及中国的阿里云、腾讯云、百度等都有积极的布局,也推出推出了自己的产品。云服务商将在云应用环境下不断发展壮大。
2020年,腾讯云就发布分布式图数据库产品腾讯云数图TGDB(Tencent GraphDatabase)。腾讯云数图以原生方式实现属性图,高效存储关联数据,支持大图的高效查询和关联分析。通过支持PageRank、社群发现、相似度计算、模糊子图匹配等社群发现算法实现高性能图计算。同时,高可用、高健壮也是腾讯云数图的一大性能优势。
亚马逊的Amazon Neptune是一项快速、可靠且完全托管的图数据库服务,核心是专门构建的高性能图数据库引擎,进行了优化以存储数十亿个关系并将图形查询延迟降低到毫秒级。
Amazon Neptune支持常见的图形模型 Property Graph 和 W3C 的 RDF 及其关联的查询语言 Apache TinkerPop Gremlin 和 SPARQL,支持图形使用案例,如建议引擎、欺诈检测、知识图谱、药物开发和网络安全。
Forrester在其报告中认为,客户喜欢该平台的易于设置、完全管理的产品、AWS 生态系统的一部分、其技术支持和性能。
2020年,阿里云图数据库GDB于2020年3月正式在发布商用,产品使用、运维成本,仅为外国图数据库产品的40%,支持Gremlin、Cypher语言,使其能更好的兼容开源社区中的图查询、图计算代码,降低用户的开发成本;支持数据存储模式自由(Schema-free),可以满足图数据结构跟随业务灵活调整。
速度和支持数据规模是图数据库的核心,随着技术的不断进步,图数据库应用将不断扩大,自主研发的图数据库产品更能赢得用户。