最近,在化学行业涌现了许多激动人心的机器学习 (ML) 应用,特别是在解决化学检索问题方面,从药物发现和电池设计到寻找更好的 OLED 和催化剂,层出不穷。历史上,化学家一直使用薛定谔方程式的数值逼近(例如密度泛函理论 (DFT))来进行此类化学检索。
然而,计算这些近似值的开销限制了检索的规模。为了实现更大规模的检索,几个研究小组建立了机器学习模型,使用 DFT 生成的训练数据(例如 Rupp et al. 和 Behler and Parrinello)预测化学性质。在开展前述工作之前,我们一直使用各种现代机器学习方法来开发 QM9 基准库,这是一组公开的分子库,其中提供了根据 DFT 理论计算得出的各种分子的电子、热力学和振动特性。
我们最近发布了两篇论文,介绍了我们在此领域的研究成果,这些成果源自 Google Brain 团队、Google Accelerated Science 团队、DeepMind 和巴塞尔大学的密切合作。***篇论文介绍了一种新的分子影像制作方法以及一种评估开发 QM9 基准库所用的各种机器学习方法的系统化评估方法。在对此基准库尝试过许多现有方法之后,我们曾致力于改进最有希望的深度神经网络模型。
其结果是,我们发表了第二篇论文“量子化学的神经消息传递”(Neural Message Passing for Quantum Chemistry),其中介绍了一个称为消息传递神经网络 (Message Passing Neural Networks, MPNN) 的模型系列,其定义足够抽象,能够包含许多之前图形对称性保持不变的神经网络模型。我们在 MPNN 模型系列中开发出新的模型,其表现大大优于 QM9 基准库的所有基准方法,在某些指标上提升了将近 4 倍。
从机器学习的角度来看,分子数据如此有趣的原因之一是:一个分子的自然表示形式是以原子作为节点,以化学键作为边绘制而成的分子结构图。利用数据中的内在对称性的模型往往更具普遍性,脑回神经网络之所以能在图片处理方面取得成功,部分是因为它们能够吸收我们之前关于图像数据不变性的知识(例如,一只狗的照片移到左边后仍然是一只狗的照片)。对于处理图形数据的机器学习模型来说,图形对称性不变是一个特别有用的特性,这方面也有许多有趣的研究(例如 Li et al.、Duvenaud et al.、Kearnes et al.、Defferrard et al.)。然而,尽管取得了这些进展,但仍有大量工作要做。我们希望为化学(和其他)应用找到这些模型中的***模型并找出文献中建议的不同模型之间的关联。
我们的 MPNN 为预测 QM9 中所有 13 种化学性质建立了新的模型标杆。对于这组特别的分子,我们的模型可以足够准确地预测出其中 11 种性质,这些预测对化学家而言很可能非常有用,并且,我们的速度比使用 DFT 模拟预测最多要快 30 万倍。然而,在 MPNN 能够对化学家产生真正的实用价值之前,我们还有大量工作要做。特别是,使用 MPNN 分析的分子类型还远远不够,必须比 QM9 中现有的分子类型还要多得多(例如,分子量更大或者有更多类型的重原子的分子)。当然,即便是采用真实的训练集,即便推广到大相迥异的分子,也仍然不够。要克服这两大挑战,就需要在普遍化(这也是机器学习研究的核心)等问题上取得突破。
预测分子特性是一个非常重要的问题,一方面,先进的机器学习技术有助于推动该课题的研究,另一方面,该课题也为学习算法提出了一些有趣的基本研究挑战。最终,此类预测可以帮助设计造福人类的新药物和新材料。
【本文是51CTO专栏机构“谷歌开发者”的原创稿件,转载请联系原作者(微信公众号:Google_Developers)】