使用机器学习预测分子性质

开发 开发工具
最近,在化学行业涌现了许多激动人心的机器学习 (ML) 应用,特别是在解决化学检索问题方面,为了实现更大规模的检索,几个研究小组建立了机器学习模型,使用 DFT 生成的训练数据预测化学性质。

最近,在化学行业涌现了许多激动人心的机器学习 (ML) 应用,特别是在解决化学检索问题方面,从药物发现和电池设计到寻找更好的 OLED 和催化剂,层出不穷。历史上,化学家一直使用薛定谔方程式的数值逼近(例如密度泛函理论 (DFT))来进行此类化学检索。

然而,计算这些近似值的开销限制了检索的规模。为了实现更大规模的检索,几个研究小组建立了机器学习模型,使用 DFT 生成的训练数据(例如 Rupp et al. 和 Behler and Parrinello)预测化学性质。在开展前述工作之前,我们一直使用各种现代机器学习方法来开发 QM9 基准库,这是一组公开的分子库,其中提供了根据 DFT 理论计算得出的各种分子的电子、热力学和振动特性。

[[190246]]

我们最近发布了两篇论文,介绍了我们在此领域的研究成果,这些成果源自 Google Brain 团队、Google Accelerated Science 团队、DeepMind 和巴塞尔大学的密切合作。***篇论文介绍了一种新的分子影像制作方法以及一种评估开发 QM9 基准库所用的各种机器学习方法的系统化评估方法。在对此基准库尝试过许多现有方法之后,我们曾致力于改进最有希望的深度神经网络模型。

其结果是,我们发表了第二篇论文“量子化学的神经消息传递”(Neural Message Passing for Quantum Chemistry),其中介绍了一个称为消息传递神经网络 (Message Passing Neural Networks, MPNN) 的模型系列,其定义足够抽象,能够包含许多之前图形对称性保持不变的神经网络模型。我们在 MPNN 模型系列中开发出新的模型,其表现大大优于 QM9 基准库的所有基准方法,在某些指标上提升了将近 4 倍。

从机器学习的角度来看,分子数据如此有趣的原因之一是:一个分子的自然表示形式是以原子作为节点,以化学键作为边绘制而成的分子结构图。利用数据中的内在对称性的模型往往更具普遍性,脑回神经网络之所以能在图片处理方面取得成功,部分是因为它们能够吸收我们之前关于图像数据不变性的知识(例如,一只狗的照片移到左边后仍然是一只狗的照片)。对于处理图形数据的机器学习模型来说,图形对称性不变是一个特别有用的特性,这方面也有许多有趣的研究(例如 Li et al.、Duvenaud et al.、Kearnes et al.、Defferrard et al.)。然而,尽管取得了这些进展,但仍有大量工作要做。我们希望为化学(和其他)应用找到这些模型中的***模型并找出文献中建议的不同模型之间的关联。

我们的 MPNN 为预测 QM9 中所有 13 种化学性质建立了新的模型标杆。对于这组特别的分子,我们的模型可以足够准确地预测出其中 11 种性质,这些预测对化学家而言很可能非常有用,并且,我们的速度比使用 DFT 模拟预测最多要快 30 万倍。然而,在 MPNN 能够对化学家产生真正的实用价值之前,我们还有大量工作要做。特别是,使用 MPNN 分析的分子类型还远远不够,必须比 QM9 中现有的分子类型还要多得多(例如,分子量更大或者有更多类型的重原子的分子)。当然,即便是采用真实的训练集,即便推广到大相迥异的分子,也仍然不够。要克服这两大挑战,就需要在普遍化(这也是机器学习研究的核心)等问题上取得突破。

预测分子特性是一个非常重要的问题,一方面,先进的机器学习技术有助于推动该课题的研究,另一方面,该课题也为学习算法提出了一些有趣的基本研究挑战。最终,此类预测可以帮助设计造福人类的新药物和新材料。

【本文是51CTO专栏机构“谷歌开发者”的原创稿件,转载请联系原作者(微信公众号:Google_Developers)】

戳这里,看该作者更多好文

责任编辑:赵宁宁 来源: 51CTO专栏
相关推荐

2024-01-04 17:11:20

pytorch自然科学

2022-06-09 09:14:31

机器学习PythonJava

2017-09-06 16:40:51

机器学习Airbnb预测房价

2023-07-11 15:43:31

模型分子

2023-05-26 12:45:22

predict​方法数据

2018-08-30 14:58:12

机器学习磁盘故障

2020-01-31 16:08:00

​机器学习数据技术

2017-07-25 12:09:10

机器学习预测性维护模型

2020-08-06 16:37:25

机器学习技术股票

2020-08-28 07:00:00

机器学习预测股市人工智能

2021-08-21 14:30:58

机器学习bilibili股价

2021-08-23 11:15:20

Python机器学习bilibili

2022-02-21 16:05:26

机器学习优势Python

2022-01-18 09:21:17

Python机器学习黄金价格

2020-07-14 08:34:07

AI机器学习预测股价

2020-04-27 09:52:03

预测销售机器学习ML

2019-10-14 16:57:19

机器学习预测分析 区别

2018-01-16 16:50:45

2021-03-30 23:10:47

数据科学机器学习二分类

2017-03-24 08:58:23

机器学习算法预测
点赞
收藏

51CTO技术栈公众号