使用机器学习预测分子性质-机器学习分子动力学

最近，在化学行业涌现了许多激动人心的机器学习 (ML) 应用，特别是在解决化学检索问题方面，从药物发现和电池设计到寻找更好的 OLED 和催化剂，层出不穷。历史上，化学家一直使用薛定谔方程式的数值逼近(例如密度泛函理论 (DFT))来进行此类化学检索。

然而，计算这些近似值的开销限制了检索的规模。为了实现更大规模的检索，几个研究小组建立了机器学习模型，使用 DFT 生成的训练数据(例如 Rupp et al. 和 Behler and Parrinello)预测化学性质。在开展前述工作之前，我们一直使用各种现代机器学习方法来开发 QM9 基准库，这是一组公开的分子库，其中提供了根据 DFT 理论计算得出的各种分子的电子、热力学和振动特性。

[[190246]]

我们最近发布了两篇论文，介绍了我们在此领域的研究成果，这些成果源自 Google Brain 团队、Google Accelerated Science 团队、DeepMind 和巴塞尔大学的密切合作。***篇论文介绍了一种新的分子影像制作方法以及一种评估开发 QM9 基准库所用的各种机器学习方法的系统化评估方法。在对此基准库尝试过许多现有方法之后，我们曾致力于改进最有希望的深度神经网络模型。

其结果是，我们发表了第二篇论文“量子化学的神经消息传递”(Neural Message Passing for Quantum Chemistry)，其中介绍了一个称为消息传递神经网络 (Message Passing Neural Networks, MPNN) 的模型系列，其定义足够抽象，能够包含许多之前图形对称性保持不变的神经网络模型。我们在 MPNN 模型系列中开发出新的模型，其表现大大优于 QM9 基准库的所有基准方法，在某些指标上提升了将近 4 倍。

从机器学习的角度来看，分子数据如此有趣的原因之一是：一个分子的自然表示形式是以原子作为节点，以化学键作为边绘制而成的分子结构图。利用数据中的内在对称性的模型往往更具普遍性，脑回神经网络之所以能在图片处理方面取得成功，部分是因为它们能够吸收我们之前关于图像数据不变性的知识(例如，一只狗的照片移到左边后仍然是一只狗的照片)。对于处理图形数据的机器学习模型来说，图形对称性不变是一个特别有用的特性，这方面也有许多有趣的研究(例如 Li et al.、Duvenaud et al.、Kearnes et al.、Defferrard et al.)。然而，尽管取得了这些进展，但仍有大量工作要做。我们希望为化学(和其他)应用找到这些模型中的***模型并找出文献中建议的不同模型之间的关联。

我们的 MPNN 为预测 QM9 中所有 13 种化学性质建立了新的模型标杆。对于这组特别的分子，我们的模型可以足够准确地预测出其中 11 种性质，这些预测对化学家而言很可能非常有用，并且，我们的速度比使用 DFT 模拟预测最多要快 30 万倍。然而，在 MPNN 能够对化学家产生真正的实用价值之前，我们还有大量工作要做。特别是，使用 MPNN 分析的分子类型还远远不够，必须比 QM9 中现有的分子类型还要多得多(例如，分子量更大或者有更多类型的重原子的分子)。当然，即便是采用真实的训练集，即便推广到大相迥异的分子，也仍然不够。要克服这两大挑战，就需要在普遍化(这也是机器学习研究的核心)等问题上取得突破。

预测分子特性是一个非常重要的问题，一方面，先进的机器学习技术有助于推动该课题的研究，另一方面，该课题也为学习算法提出了一些有趣的基本研究挑战。最终，此类预测可以帮助设计造福人类的新药物和新材料。

【本文是51CTO专栏机构“谷歌开发者”的原创稿件，转载请联系原作者(微信公众号：Google_Developers)】

戳这里，看该作者更多好文