PyTorch开发新药?哈佛出品,10行代码训练“药神”模型

新闻 前端
最近,来自哈佛大学等机构的研究人员,开发出了一个AI“药神”工具包,为加速新冠疫情下的新药研发助力。

 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

最近,来自哈佛大学等机构的研究人员,开发出了一个AI“药神”工具包,为加速新冠疫情下的新药研发助力。

这款名为DeepPurpose的工具包,不仅包含COVID-19的生物测定数据集,还有56种前沿的AI模型

作为一个基于PyTorch的工具包,DeepPurpose只需要不到10行代码,就能训练出AI“药神”模型。

[[340079]]

这些模型不仅能完成虚拟筛选,还能挖掘出已有药物的新功能(例如,高血压药物可治疗阿尔兹海默症)。

下面来看看它实现的原理。

56种前沿模型,功能齐全

DeepPurpose由两个编码器组成,分别用来生成药物分子和蛋白质的嵌入(Embedding),也就是深度学习过程中的映射。

随后,将这两个编码器串联到解码器中,用于预测二者的结合亲和力,如下图所示。

PyTorch开发新药?哈佛出品,10行代码训练“药神”模型

在这期间,模型的输入是药物靶标对(drug-target pair),输出则是指示药物-靶对的结合活性的分数。

当然,DeepPurpose毕竟是一个工具包,所以无论是药物分子、还是蛋白质,它们的编码器都不止一种类型

对于药物分子,DeepPurpose提供了8种编码器

在这些编码器中,有用于构造分子结构图的、有将绘制的分子转换成二进制数的、也有用于获取序列顺序信息的等……模型各有不同。

而对于靶蛋白,DeepPurpose也提供了7种编码器,相较于药物的化学和信息学, 编码器对靶蛋白的转换更多地侧重于生物学信息。

也就是说,DeepPurpose一共能提供7*8=56种模型,其中许多模型非常新颖前沿,值得入手。

那么,DeepPurpose究竟该怎么上手呢?

10步以内,上手AI“药神”

事实上,训练一个新药研发模型,需要通过以下几个步骤,每一步都只需要用1行代码实现,所有这些步骤加起来,也不超过10步

来看看这个模型要经过的步骤:

1、数据加载
2、指定编码器
3、分割数据集、编码
4、生成模型配置文件
5、初始化模型
6、训练模型
7、旧药新用/虚拟筛选
8、模型保存/加载

其中,DeepPurpose最关键的两个功能,旧药新用虚拟筛选可以在训练后实现。可以看见,DeepPurpose会自动生成药物的亲和度,并由低到高进行排序。

PyTorch开发新药?哈佛出品,10行代码训练“药神”模型

这样,就能快速缩小高通量分子的筛选范围(如果亲和度为0,那真的不必考虑了)。

至于虚拟筛选,也是类似的工作,会生成一个与上图相似的排名列表。

不仅如此,这个AI模型还包含另外几种案例,例如SARS-CoV2 3CLPro的旧药新用方法、预训练模型等。

此外,针对近期引发关注的新冠疫情,DeepPurpose也包含了MIT收集的COVID-19开源数据集

针对这些数据,工具包中有相应的函数,可以直接引用。

PyTorch开发新药?哈佛出品,10行代码训练“药神”模型

而这个工具包的框架,正是基于药物研发的原理制作的。

靶蛋白:药物作用对象

药物筛选最根本的原理,通常是判断药物分子与靶蛋白(药物作用的目标)的亲和性

为什么是蛋白质?

事实上,这是因为部分疾病(例如癌症、肿瘤)产生的原因,通常与某一类蛋白质有关,如果能找到、并用药物“调节”这种蛋白质,就能治愈疾病。

PyTorch开发新药?哈佛出品,10行代码训练“药神”模型

 图片来源于flickr

例如,细胞与细胞之间的交流,依靠的就是细胞膜上的糖蛋白。而某种疾病发生的原因,可能就是因为一类细胞上的糖蛋白过度表达

而这个糖蛋白,就被称之为疾病过程中的靶蛋白

但能用来调节某种靶蛋白的药物,并不好找,毕竟不是每种化合物都能很好地与靶蛋白“贴贴”。

在这样的基础上,研究人员开发了DeepPurpose,这个工具包能用于预测药物分子与靶蛋白的亲和度,专业学术名词叫药物-靶标相互作用(Drug-Target Interaction, DTI),简称DTI

之所以选择用AI助力新药研发,也有其背后的原因。

AI助新药研发一臂之力

事实上,药厂研发出一种新药,需要15年左右,甚至更久。

[[340081]]

而在这期间,光是研究开发的阶段,就要花掉2-10年

研究开发的阶段,目的是筛选出有治疗潜力的新化合物,也就是说,每一种化合物都需要做实验,去不断试错。

这一过程不仅枯燥无味,而且工程量巨大,人力财力都得砸。

如果用AI完成药物筛选这一过程,对于新药研发的加速将会起到不小的作用。

作者介绍

[[340082]]

论文的第一作者黄柯鑫,本科于纽约大学获得数学和计算机双学位,目前在哈佛大学读硕士,专业与医疗大数据有关。

黄柯鑫的研究方向,主要是图神经网络(GNN)在新药研发和医疗文本(如电子病历等)上的应用。

此外,Tianfan Fu、Lucas Glass、Marinka Zitnik、Cao Xiao和Jimeng Sun也共同参与了研究工作。

传送门

论文链接:
https://arxiv.org/abs/2004.08919

项目链接:
https://github.com/kexinhuang12345/DeepPurpose

黄柯鑫主页:
https://www.kexinhuang.com/

 

责任编辑:张燕妮 来源: 量子位
相关推荐

2024-11-27 14:30:00

模型训练

2018-07-09 14:21:29

Python电影数据

2020-07-13 14:30:35

人工智能机器学习技术

2023-10-23 09:56:00

2023-11-10 09:41:44

Python代码

2021-03-25 15:19:33

深度学习Pytorch技巧

2021-05-11 20:46:17

Python代码分类

2023-02-19 15:26:51

深度学习数据集

2024-07-25 08:25:35

2024-09-26 00:11:01

2023-12-11 15:40:32

PyTorch代码大模型

2020-10-30 08:00:00

PyTorch机器学习人工智能

2024-04-09 15:22:24

2023-08-14 07:42:01

模型训练

2018-07-13 15:36:52

2018-07-16 16:39:00

数据

2020-01-21 22:23:18

代码开发AI

2023-05-16 13:54:00

模型AI

2020-10-27 09:37:43

PyTorchTensorFlow机器学习

2019-10-15 14:04:29

技术人工智能框架
点赞
收藏

51CTO技术栈公众号