AWS上海人工智能研究院推动研发的DGL图神经网络框架已在Amazon SageMaker上推出-51CTO.COM

近年来，深度学习席卷世界，各种原因是它具有从复杂数据（如自由格式的文本、图像或视频）中提取复杂模式的神奇能力。但是，许多数据集不符合这些类别，更适合用图或者说网络来表示。很自然的，我们能够意识到传统的神经网络架构，如卷积神经网络或循环神经网络，并不适合这样的数据集，需要一种新的方法。

图神经网络入门

图神经网络（GNN）是当今机器学习中最令人兴奋的进展之一，以下参考论文有助于您开始学习。

GNN用于训练如下数据集的预测模型：

• 社交网络，用图显示相关人员之间的联系，

• 推荐系统，用图显示客户和条目之间的交互，

• 化学分析，化合物被表示为原子和键图，

• 网络安全，用图描述源和目标 IP 地址之间的连接，

• 还有更多！

大多数时候，这些数据集非常大，有标记的只有一小部分。例如在欺诈检测场景中，我们分析某些用户与已知欺诈者的关系，预测他们是否是欺诈参与者的可能性。这一问题可以定义为半监督的学习任务，也即只对其中一小部分图节点进行标记（’欺诈者’或’合法’）。这样的解决方案，胜过构建手工标记的大型数据集、对它进行"线性化"以便使用传统的机器学习算法。

解决这些问题需要领域知识（例如零售、金融、化学等）、计算机科学知识（Python、深度学习、开源工具）和基础架构知识（训练、部署和模型扩展）。然而很少有人掌握所有这些技能，所以就需要DGL图神经框架和Amazon SageMaker这样的工具。

DGL图神经框架介绍

DGL图神经框架于 2018 年 12 月在Github上发布，它是一个开源的Python框架，可帮助研究人员、数据科学家和科学家在其数据集上快速构建、训练和评估图神经网络。

DGL 建立在流行的深度学习框架（如 PyTorch 和 Apache MXNet）之上。如果您知道其中一个或两个，你会发现得心应手。我们没有忘记TensorFlow的粉丝：DGL 的下一个小版本将增加对 TensorFlow的初步支持，预计下一个大版本将完全支持。

无论使用哪个框架，您都可以借助这些适合初学者的示例轻松入门。我还发现 GTC 2019 研讨会的幻灯片和代码非常有用。

完成简单示例之后，您可以开始探索在DGL中已经实现的一系列前沿模型。例如，您可以使用图形卷积网络（GCN）和CORA数据集，训练文档分类模型：

$ python3 train.py --dataset cora --gpu 0 --self-loop

所有模型的代码都可以检查和调整。AWS团队对这些实现方法进行了仔细验证，验证了其性能，确保可以重现结果。

DGL 还包括一系列图数据集，您可以轻松地下载和试验这些数据集。

当然，您可以在本地安装和运行DGL，但为了让用户有更简单、流畅的体验，我们将其添加到PyTorch 和 Apache MXNet深度学习容器中，这使得在Amazon SageMaker上使用DGL更方便，便于规模化训练和部署模型，无需管理单个服务器。

药明康德 (WuXi AppTec) 是一家全球性的制药和医疗器械服务公司。开发一款新药是一个复杂、昂贵、漫长的过程，通常要花费26亿美元，平均需要12年。为了加快这一过程，药明康德的计算机辅助药物设计（CADD）团队一直在探索神经网络模型，以预测候选药物分子的药物特性。使用传统的方法，科学家们要花几个星期甚至几个月的时间来构建和验证模型、设置应用模型所需的计算资源。DGL和Amazon SageMaker为科学家提供了快速部署药物特性预测模型的解决方案，将建模时间缩短了5倍，从而加快了药物开发过程。

Bio-Techne是一家全球性的生命科学和诊断公司，为世界各地的研究人员和临床医生提供服务。公司的产品有超过 50万种，包括高质量的试剂、仪器、临床控制，以及组织和液体活检诊断测试等。以高效而有意义的方式向其广泛的客户组织和推荐产品，变得至关重要。Bio-Techne数据实验室正在与 AWS 协作，积极测试图神经网络（GNN）的使用，以改进其当前的推荐算法。DGL 通过简单易用的API ，简化了实现，将开发时间从几个月缩短到数周。BioTechne的评估结果表明，使用 DGL 实现的、基于GNN的推荐模型得出的Top 10推荐，其精度比非GNN模型提高了70%。Bio-Techne将继续优化这些模型、正式使用 DGL和Amazon SageMaker部署推荐算法。

DGL的研发由 2018年底成立的AWS上海人工智能研究院推动，与美国帕洛阿尔托的MXNet科学团队密切协作完成。