深度学习是目前AI领域最热门的方向之一,目前PyG和DGL等主流图深度学习框架大多是实现图深度学习的基本操作与模型,很难应对复杂图深度学习研究任务。近日,来自德州农工大学的姬水旺教授团队开发了首个面向复杂研究任务的可扩展型图深度学习工具包,包含图生成,图自监督学习,图神经网络可解释性以及3D图深度学习任务,旨在帮助研究者在复杂图深度学习任务的算法开发上能够轻松使用常用数据集和评估指标与通用基准进行比较。
图深度学习已经展示了其在学习丰富的图结构数据上的有效性。并且在许多问题上取得了重大进展, 例如药物发现、社交网络、物理仿真等。许多图深度学习框架(如 PyG,DGL 等)主要关注实现基本的图深度学习模块和基础任务,比如节点分类与图分类等。但对于复杂的任务,比如图生成和图神经网络的可解释性,研究人员仍然需要花费巨大精力实现算法并与基准模型进行比较。
为了解决这一问题,德州农工大学姬水旺教授领导的 DIVE(Data Integration, Visualization and Exploration)实验室开源了首个面向复杂研究任务的图深度学习工具包 DIG(Dive into Graphs)。该工具包由实验室 16 人团队(14 个博士生,1 个本科生,1 个指导老师)历时 1 年努力完成。与 PyG 和 DGL 等图神经网络框架不同的是,DIG 聚焦于为目前热门的复杂图深度学习研究任务提供更易用、更快速并且可扩展的算法开发与对比研究平台。
目前,DIG 工具包支持 4 个研究方向:图生成、图自监督学习、图神经网络可解释性以及 3D 图深度学习。对于每个领域,DIG 都提供了通用、可扩展的数据接口、常用算法与评估标准实现。
总之,DIG 极大地方便了研究人员的算法开发以及与基准模型进行实验比较。
-
论文地址:https://arxiv.org/abs/2103.12608
-
项目地址:https://github.com/divelab/DIG
目前,DIG 涵盖 4 个研究方向的 18 个算法、33 个数据集、7 类评估指标。基于通用与可扩展的实现,未来可以将更多的方向和算法集成到 DIG 中。工具包整体结构如下图所示:
DIG 涵盖的四大方向。
图生成 :图生成算法研究的是如何基于给定的一组图数据生成新的图。图生成任务对于药物和材料开发有潜在的重要作用。因此,DIG 主要考虑可以生成分子图的深度学习算法。同时,DIG 中也实现了用以评估随机生成、分子性质优化和有约束的分子性质优化的相关指标。
图自监督学习 :自监督学习的研究最近已扩展到图数据,利用特定的自监督任务可以帮助模型获得更有效的图特征表示。目前 DIG 中主要实现了常见的基于对比学习的图自监督算法,提供了针对节点分类和图分类的数据接口和评估指标。
图神经网络可解释性 :由于图神经网络已经被越来越多地部署在真实世界的应用中,为了更好地理解模型,对图神经网络的可解释性研究变得至关重要。DIG 中实现了常见的图神经网络解释算法。除了常用基准数据集和评估指标外,DIG 的开发人员还针对可解释性任务从文本数据中构建了易于人类理解的图数据集,极大地方便了后续图神经网络可解释性的研究。
3D 图深度学习 :3D图网络是指节点具有三维位置信息的图网络结构。例如分子中每个原子都有其相对的 3D 位置。考虑到图结构中 3D 位置信息对于提升图网络表达能力具有重要作用。DIG 中将三种最新 3D 图深度学习算法整合为一个 3DGN 框架,提供了统一的实现。也实现了常见的 3D 分子数据集的统一接口和评估指标。
关键设计准则
通用实现:DIG 对于每个研究方向的数据接口和评估方法都有通用的实现。这使得 DIG 能够充当标准化的测试平台。另外,对于可以从一个角度统一的算法,DIG 也会提供通用的算法实现。比如针对 3D 图深度学习的 3DGN 框架和针对图自监督学习的对比模型框架。
可扩展性和可定制化:借助于通用的实现,研究人员可以方便地集成新的数据集、算法与评估标准。而且用户可以灵活地选取数据接口和评估方法来定制化实验。因此 DIG 可以用作研究人员实现新的算法和与基准算法进行实验比较的平台。