PyTorch开发新药？哈佛出品，10行代码训练“药神”模型-gan pytorch代码

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

最近，来自哈佛大学等机构的研究人员，开发出了一个AI“药神”工具包，为加速新冠疫情下的新药研发助力。

这款名为DeepPurpose的工具包，不仅包含COVID-19的生物测定数据集，还有56种前沿的AI模型。

作为一个基于PyTorch的工具包，DeepPurpose只需要不到10行代码，就能训练出AI“药神”模型。

这些模型不仅能完成虚拟筛选，还能挖掘出已有药物的新功能（例如，高血压药物可治疗阿尔兹海默症）。

下面来看看它实现的原理。

56种前沿模型，功能齐全

DeepPurpose由两个编码器组成，分别用来生成药物分子和蛋白质的嵌入（Embedding），也就是深度学习过程中的映射。

随后，将这两个编码器串联到解码器中，用于预测二者的结合亲和力，如下图所示。

在这期间，模型的输入是药物靶标对（drug-target pair），输出则是指示药物-靶对的结合活性的分数。

当然，DeepPurpose毕竟是一个工具包，所以无论是药物分子、还是蛋白质，它们的编码器都不止一种类型。

对于药物分子，DeepPurpose提供了8种编码器。

在这些编码器中，有用于构造分子结构图的、有将绘制的分子转换成二进制数的、也有用于获取序列顺序信息的等……模型各有不同。

而对于靶蛋白，DeepPurpose也提供了7种编码器，相较于药物的化学和信息学，编码器对靶蛋白的转换更多地侧重于生物学信息。

也就是说，DeepPurpose一共能提供7*8=56种模型，其中许多模型非常新颖前沿，值得入手。

那么，DeepPurpose究竟该怎么上手呢？

10步以内，上手AI“药神”

事实上，训练一个新药研发模型，需要通过以下几个步骤，每一步都只需要用1行代码实现，所有这些步骤加起来，也不超过10步。

来看看这个模型要经过的步骤：

1、数据加载
2、指定编码器
3、分割数据集、编码
4、生成模型配置文件
5、初始化模型
6、训练模型
7、旧药新用/虚拟筛选
8、模型保存/加载

其中，DeepPurpose最关键的两个功能，旧药新用和虚拟筛选可以在训练后实现。可以看见，DeepPurpose会自动生成药物的亲和度，并由低到高进行排序。

这样，就能快速缩小高通量分子的筛选范围（如果亲和度为0，那真的不必考虑了）。

至于虚拟筛选，也是类似的工作，会生成一个与上图相似的排名列表。

不仅如此，这个AI模型还包含另外几种案例，例如SARS-CoV2 3CLPro的旧药新用方法、预训练模型等。

此外，针对近期引发关注的新冠疫情，DeepPurpose也包含了MIT收集的COVID-19开源数据集。

针对这些数据，工具包中有相应的函数，可以直接引用。

而这个工具包的框架，正是基于药物研发的原理制作的。

靶蛋白：药物作用对象

药物筛选最根本的原理，通常是判断药物分子与靶蛋白（药物作用的目标）的亲和性。

为什么是蛋白质？

事实上，这是因为部分疾病（例如癌症、肿瘤）产生的原因，通常与某一类蛋白质有关，如果能找到、并用药物“调节”这种蛋白质，就能治愈疾病。

△ 图片来源于flickr

例如，细胞与细胞之间的交流，依靠的就是细胞膜上的糖蛋白。而某种疾病发生的原因，可能就是因为一类细胞上的糖蛋白过度表达。

而这个糖蛋白，就被称之为疾病过程中的靶蛋白。

但能用来调节某种靶蛋白的药物，并不好找，毕竟不是每种化合物都能很好地与靶蛋白“贴贴”。

在这样的基础上，研究人员开发了DeepPurpose，这个工具包能用于预测药物分子与靶蛋白的亲和度，专业学术名词叫药物-靶标相互作用（Drug-Target Interaction, DTI），简称DTI。

之所以选择用AI助力新药研发，也有其背后的原因。

AI助新药研发一臂之力

事实上，药厂研发出一种新药，需要15年左右，甚至更久。

而在这期间，光是研究开发的阶段，就要花掉2-10年。

研究开发的阶段，目的是筛选出有治疗潜力的新化合物，也就是说，每一种化合物都需要做实验，去不断试错。

这一过程不仅枯燥无味，而且工程量巨大，人力财力都得砸。

如果用AI完成药物筛选这一过程，对于新药研发的加速将会起到不小的作用。

作者介绍

论文的第一作者黄柯鑫，本科于纽约大学获得数学和计算机双学位，目前在哈佛大学读硕士，专业与医疗大数据有关。

黄柯鑫的研究方向，主要是图神经网络（GNN）在新药研发和医疗文本（如电子病历等）上的应用。

此外，Tianfan Fu、Lucas Glass、Marinka Zitnik、Cao Xiao和Jimeng Sun也共同参与了研究工作。

传送门

论文链接：
https://arxiv.org/abs/2004.08919

项目链接：
https://github.com/kexinhuang12345/DeepPurpose

黄柯鑫主页：
https://www.kexinhuang.com/