11月9日,阿里巴巴宣布将开源一站式超大规模分布式图计算平台GraphScope。GraphScope项目组告诉DeepTech,12月将开源1.0版本,希望在易编程、高性能和一站式三个方面,解决全球图计算领域主要研发瓶颈。
阿里巴巴以自有超大规模商业场景,和达摩院智能计算研究为基础,自研了交互式图查询引擎、高性能图分析引擎和图深度学习引擎及相关开发者生态工具和集成。各个引擎的核心能力由GraphScope整合。
同日,中国科协、中国科学院、中国工程院主办的世界科技与发展论坛上,GraphScope被列为重要科技发布之一。正在进行的双11中,以GraphScope为底层框架的图计算网络,也正在搜索推荐、智能风控等核心场景发挥作用。
今年疫情期间,基于GraphScope的大规模因果图推理,还帮助自动识别和预测了影响航线价格浮动及机场中转变化的关键因素,克服了传统深度学习的黑盒缺点,让AI知其然、更知其所以然。
GraphScope项目总负责人、阿里巴巴集团资深副总裁周靖人认为,图结构数据是各种实体关联关系的一种自然表达,只有高效理解这些实体概念之间的广泛联系,才能让数字智能技术进一步赋能实体产业。
图计算仍然面临三大挑战
1735年瑞士数学家莱昂哈德·欧拉面对的柯尼斯堡七桥问题,可能是最早的图计算命题。而现代图计算问题则复杂数千倍,图计算性能近年来已经进步的数10倍,但仍然存在三个大规模应用挑战:一是相关领域问题复杂,计算模式多样,大量解决方案碎片化;二是学习难度大,对于非专业编程人士门槛很高;三是跨域数据量大、计算效率仍然偏低。
传统的机器学习计算框架在解决时间序列数据、非结构化数据(如视频)已经比较高效。但对于相对比较稀疏、高维度的关联数据,则需要图计算性能、架构和平台的持续进步。
若把中国484.65万公里的公路组成一个巨大的迷宫,运用GraphScope可在一毫秒内跑完所有的岔路。
“GraphScope提供了一站式的友好的编程环境 ,它不仅支持多种核心的图计算范式和它们之间高效的数据交换,提供了面向Python接口的单机抽象,从而屏蔽了大规模分布式计算的系统复杂性。”阿里巴巴资深专家、GraphScope团队成员钱正平告诉DeepTech。
通俗来说,图是一个由点和边构成的数学模型,能够非常容易地表达实体和数据之间的复杂关联。与阿里巴巴诸多技术开源项目类似,GraphScope来源于阿里巴巴集团内丰富的图场景与真实应用对于大规模图计算提出的需求。比如电商的知识图谱构建、风险控制、阿里云网络安全、商品的搜索推荐和广告等。正在进行的双11中,图计算也在商品推荐、智能物流和网络安全等方面发挥着重要作用。
“图模型可以很自然表达这些领域中数据间的复杂关联与结构特征。利用这些特征往往可以增强大数据分析的效果,为用户提供更精准和可靠的信息。”钱正平告诉DeepTech。
三大引擎支撑GraphScope
DeepTech独家获得资料显示,GraphScope开源项目的核心引擎主要有三驾马车:实时交互式图查询引擎、高性能图分析引擎、可扩展的图深度学习引擎。
1)交互式图查询引擎:实时图计算赋能行业革新
“深入理解图数据”是在多样化场景中有效利用图计算,挖掘深层洞察和创造新数据价值的必要前提。为此,商业用户及领域专家往往需要在交互式环境中,高效的探索和展现图数据。
GraphScope利用了高层声明式图查询语言—Gremlin,让领域专家和非计算机专业用户都可以简洁的表达复杂图遍历模式。同时,还提供了“业界第一个自动并行化Gremlin执行引擎”,让大规模、分布式环境中对图的复杂遍历所涉及的内存管理与动态策略优化等系统难题得以向用户隐藏。
GraphScope能够降低使用门槛,促使图计算人人可用,这方面具体体现在能够促进与更多行业领域专家的深度合作,让他们能够其领域知识跟图计算本身系统能力结合起来,在更多行业实现技术革新。
钱正平告诉DeepTech:“在海量数据的计算上,相比已有图上的交互式分析工具,我们希望GraphScope能提供至少一个数量级的性能(即查询延时)优势,让很多大规模的应用从不可能变成可能,而这种性能的量变能够触发业务效果的质变。”
2)高性能图分析引擎:让大规模图计算人人可用
除了交互式的图计算场景,图分析也是大数据图计算的重要一环。现实世界中的各种实体间关系、线上线下的各种交互场景,如社交媒体网络,化学结构,蛋白质相互作用网络、知识图谱、交通网络、通信网络、供应链与交易网络等,都广泛用到了大规模图分析。
GraphScope团队研发了一个基于不动点计算的大规模分布式图计算引擎。它扩展自局部计算-增量计算的不动点计算理论。在分布式环境中,各计算节点在初始轮根据自身持有的数据进行局部计算,之后通过几轮信息交换,每一轮都将来自别的计算节点信息作为更新,触发增量计算,一直到系统稳定时计算结束。该过程经过严谨的理论证明,保证在前提条件满足下,该分析引擎具有终止性和准确性。
该引擎支持了阿里巴巴内部20多种业务,相对原有方案体现了十分显著的性能提升效果,在一些业务上获得2-3个数量级的性能提升。此外,该分析引擎还支撑了双十一智能风控、新春五福红包发放等重点场景,经受了海量数据和瞬时峰值的实战考验。
3)高性能、可扩展的图深度学习
图引擎的应用已经延伸到了人工智能领域,融合了图计算和深度学习的图神经网络(GNN)更是成为了当下AI领域中非常热门的子领域,被研究者给予了很高的期待。图结构可以表达人类知识体系和现实生产生活中的复杂关系,从而在一切皆向量的深度学习中融入了知识和结构,使得深度学习由感知学习迈向认知学习。
GNN算法从开发到工业化落地,仍然处在快速发展和迭代的阶段。应用场景的拓宽、算法理论的变化、编程范式的变化都可能带来平台的变化甚至颠覆。
GraphScope通过整合上述三个核心组件,提供了一站式图计算的处理能力。同时,GraphScope通过生态丰富、语义灵活的Python编程接口,将多样化的图操作无缝集成。通过开发者本地的一个Python脚本,就可以实现对集群中海量图数据的Gremlin交互查询、图分析算法调用和进行图神经网络训练等等。此外,GraphScope还利用阿里已经开源的Vineyard项目,实现了上述操作之间高效的全内存中间结果数据交换,进一度提高应用流水线端到端的效率。
在世界科技与发展论坛上,阿里巴巴认为,随着GraphScope开源多个提升智能技术底层能力的突破,未来可对标以TensorFlow和Hadoop为代表的人工智能底层计算架构,助益全球数字经济加快发展。
钱正平预计,“GraphScope与TensorFlow等框架,在系统上会有一个协同关系,即将深度学习和传统的图模型做更紧密的结合,取得更好的效果。”