近年来,深度学习席卷世界,各种原因是它具有从复杂数据(如自由格式的文本、图像或视频)中提取复杂模式的神奇能力。但是,许多数据集不符合这些类别,更适合用图或者说网络来表示。很自然的,我们能够意识到传统的神经网络架构,如卷积神经网络或循环神经网络,并不适合这样的数据集,需要一种新的方法。
图神经网络入门
图神经网络(GNN)是当今机器学习中最令人兴奋的进展之一,以下参考论文有助于您开始学习。
GNN用于训练如下数据集的预测模型:
• 社交网络,用图显示相关人员之间的联系,
• 推荐系统,用图显示客户和条目之间的交互,
• 化学分析,化合物被表示为原子和键图,
• 网络安全,用图描述源和目标 IP 地址之间的连接,
• 还有更多!
大多数时候,这些数据集非常大,有标记的只有一小部分。例如在欺诈检测场景中,我们分析某些用户与已知欺诈者的关系,预测他们是否是欺诈参与者的可能性。这一问题可以定义为半监督的学习任务,也即只对其中一小部分图节点进行标记(’欺诈者’或’合法’)。这样的解决方案,胜过构建手工标记的大型数据集、对它进行"线性化"以便使用传统的机器学习算法。
解决这些问题需要领域知识(例如零售、金融、化学等)、计算机科学知识(Python、深度学习、开源工具)和基础架构知识(训练、部署和模型扩展)。然而很少有人掌握所有这些技能,所以就需要DGL图神经框架和Amazon SageMaker这样的工具。
DGL图神经框架介绍
DGL图神经框架于 2018 年 12 月在Github上发布,它是一个开源的Python框架,可帮助研究人员、数据科学家和科学家在其数据集上快速构建、训练和评估图神经网络。
DGL 建立在流行的深度学习框架(如 PyTorch 和 Apache MXNet)之上。如果您知道其中一个或两个,你会发现得心应手。我们没有忘记TensorFlow的粉丝:DGL 的下一个小版本将增加对 TensorFlow的初步支持,预计下一个大版本将完全支持。
无论使用哪个框架,您都可以借助这些适合初学者的示例轻松入门。我还发现 GTC 2019 研讨会的幻灯片和代码非常有用。
完成简单示例之后,您可以开始探索在DGL中已经实现的一系列前沿模型。例如,您可以使用图形卷积网络(GCN)和CORA数据集,训练文档分类模型:
- $ python3 train.py --dataset cora --gpu 0 --self-loop
所有模型的代码都可以检查和调整。AWS团队对这些实现方法进行了仔细验证,验证了其性能,确保可以重现结果。
DGL 还包括一系列图数据集,您可以轻松地下载和试验这些数据集。
当然,您可以在本地安装和运行DGL,但为了让用户有更简单、流畅的体验,我们将其添加到PyTorch 和 Apache MXNet深度学习容器中,这使得在Amazon SageMaker上使用DGL更方便,便于规模化训练和部署模型,无需管理单个服务器。
药明康德 (WuXi AppTec) 是一家全球性的制药和医疗器械服务公司。开发一款新药是一个复杂、昂贵、漫长的过程,通常要花费26亿美元,平均需要12年。为了加快这一过程,药明康德的计算机辅助药物设计(CADD)团队一直在探索神经网络模型,以预测候选药物分子的药物特性。使用传统的方法,科学家们要花几个星期甚至几个月的时间来构建和验证模型、设置应用模型所需的计算资源。DGL和Amazon SageMaker为科学家提供了快速部署药物特性预测模型的解决方案,将建模时间缩短了5倍,从而加快了药物开发过程。
Bio-Techne是一家全球性的生命科学和诊断公司,为世界各地的研究人员和临床医生提供服务。公司的产品有超过 50万种,包括高质量的试剂、仪器、临床控制,以及组织和液体活检诊断测试等。以高效而有意义的方式向其广泛的客户组织和推荐产品,变得至关重要。Bio-Techne数据实验室正在与 AWS 协作,积极测试图神经网络(GNN)的使用,以改进其当前的推荐算法。DGL 通过简单易用的API ,简化了实现,将开发时间从几个月缩短到数周。BioTechne的评估结果表明,使用 DGL 实现的、基于GNN的推荐模型得出的Top 10推荐,其精度比非GNN模型提高了70%。Bio-Techne将继续优化这些模型、正式使用 DGL和Amazon SageMaker部署推荐算法。
DGL的研发由 2018年底成立的AWS上海人工智能研究院推动,与美国帕洛阿尔托的MXNet科学团队密切协作完成。