整整60年,人类在抗生素研究方面没有取得任何重要进展。
然而,这一空白被AI打破了!
最近,MIT的科学家们利用AI发现了一种全新的抗生素类别,用于对抗耐药性金黄色葡萄球菌(MRSA)。
21名研究者共同撰写了这篇论文,登上了Nature。
论文地址:https://www.nature.com/articles/s41586-023-06887-8
MRSA细菌,又称耐药金黄色葡萄球菌,已经困扰了人类多年。感染者轻则皮肤感染,重则感染肺部和血液,甚至危及生命。
根据欧洲疾病预防控制中心(ECDC)的数据,欧盟每年有近150000例MRSA感染,而每年死于抗菌素耐药性感染的有近35000人。
而发现对抗MRSA全新抗生素的,就是一种可解释的图神经网络。
在数百万化合物中筛选,研究人员在小鼠中测试了283种有前景的化合物,其中几种对MRSA有治疗效果。
LeCun、Tegmark等AI界的大佬纷纷动手转发了这一AI的重磅发现。
通过深度学习模型,AI又一次改变了医学领域的游戏规则。
有人表示,这更证实了a16z bio+health的创始人的观点:「AI是来治愈人类的,不是来杀死人类的。」
AI发现新型抗生素,280多种候选
这项发明,是人类对抗抗生素耐药性的转折点。
MIT医学工程与科学教授James Collins表示,通过这项研究,我们可以看到为了预测哪些分子可以成为良好的抗生素,AI模型是如何学习的。
「从化学结构的角度来看,我们的工作提供了一个在迄今为止从未有过的框架,在时间和资源上都很高效,同时具备深刻的洞察力。」
为了预测全新化合物的活性和毒性,团队使用的是深度学习模型。
模型使用人工神经网络自动从数据中学习和表征数据,无需显式编程。
这种图神经网络,越来越多地被用于药物发现中,来加速识别潜在的候选药物,预测其特性,并且优化药物的开发过程。
用于预测抗生素活性和人细胞毒性的深度学习模型的集成
为了研究耐甲氧西林金黄色葡萄球菌 (MRSA),MIT的研究团队使用扩展的数据集,训练了一个广泛扩展的深度学习模型。
为了创建训练数据,团队评估了大约39000种化合物对MRSA的抗生素活性。
随后,他们将所得数据和有关化合物化学结构的细节,输入到模型中。
论文主要作者之一、MIT工学院和哈佛博士后Felix Wong表示,这个过程,仿佛就像在打开一个黑匣子。
「这些模型由模拟神经连接的超大规模数字计算组成,没有人真正知道引擎盖下面究竟发生了什么。」
化学空间的过滤和可视化
为了完善潜在药物的选择,研究人员又引入了3个深度学习模型。他们对这些模型进行了训练,以评估化合物对三种不同类型人类细胞的毒性。
通过将这些毒性预测与之前确定的抗菌活性相结合,研究人员准确地找到了能够有效对抗微生物,同时对人体伤害最小的化合物。
利用这套模型,他们筛选出了大约1200万种市售化合物。最终,这些模型确定了5种不同类别的化合物,根据分子中特定的化学结构进行分类,这些化合物对MRSA具有预测的活性。
随后,研究人员获得了其中约280种化合物,并在实验室环境中对MRSA进行了测试。通过这种方法,他们从同一类化合物中发现了2种最有希望的候选抗生素。
果然,在涉及两种小鼠模型(一种是MRSA皮肤感染模型,另一种是MRSA全身感染模型)的实验中,每种化合物都能将MRSA的数量减少10倍以上。
可预测抗生素结构的图神经网络
研究人员推断,可以使用神经网络模型来学习,与抗生素活性相关的化学子结构,从而预测相关的抗生素结构。
研究人员开发了一个叫做Chemprop的图神经网络平台,通过可解释的、基于子结构的方法,来引导探索化学空间。
可解释的人工智能
研究人员使用的图神经网络,包含了每个分子的原子和键中的信息,以现实中的子结构为依据进行预测。
确定这个基本原理可以为模型的可解释性提供保证:符合子结构规律的化合物将得到更高的分数。
利用这种方法,模型可以从大型化学库中识别潜在的抗生素:从药物再利用中心(包括约6000个分子)中发现了halicin和abaucin,并从ZINC15库(约1.07亿个分子)中发现了其他抗菌化合物。
通过在测量抗生素活性和人类细胞毒性的大型数据集上进行训练,极大地扩展了用于抗生素发现的图神经网络模型,并且假设可以使用图搜索算法在化学子结构水平上解释模型预测(如下图所示)。
由于抗生素类别通常是在共享子结构的基础上定义的,因此,子结构识别可以更好地解释模型预测,有效地探索化学空间,并促进发现新的结构类别。
基于这个训练有素的Chemprop模型,利用图的搜索算法,研究人员能够在单个分子的背景下确定具有预先指定阈值的原子数。
使用蒙特卡洛树搜索来确定包含至少8个原子并表现出大于0.1的高抗生素预测分数。
如上图a所示,蒙特卡洛树搜索包括选择初始子结构,迭代修剪子结构,以及选择删除,当子图作为输入传递到Chemprop时,预测得分很高。
过滤和可视化化学空间
研究人员用所有训练数据集重新训练了20个Chemprop模型的集成,从而产生了四个预测抗生素活性、HepG2细胞毒性、HSkMC细胞毒性和IMR-90细胞毒性的集成。
使用这些集成来预测12076365种化合物的抗生素活性,和细胞毒性特征,其中包括来自Mcule数据库的11277225种化合物,还有来自Broad Institute数据库的799140种化合物(如下图所示)。
根据预测的抗生素活性和细胞毒性过滤了感兴趣的化合物,最初仅保留了Mcule库中抗生素预测评分大于0.4的3004种化合物,以及从Broad Institute库中保留了抗生素预测评分大于0.2的7306种化合物。
上图是抗生素预测得分高和低的化合物(t-SNE图),显示了各种化合物的化学相似性或不相似性。
实验效果
接下来看一下模型发现的化合物是否具有抗生素的效果。
这里研究了化合物1在局部和全身给药时,对小鼠治疗MRSA的疗效。
实验使用氨基糖苷类和耐四环素的MRSA临床分离株,在中性粒细胞减少小鼠浅表皮肤感染模型中,测试了局部给药。
与载体相比,用化合物1处理可将平均细菌载量降低约1.2个对数(如下图所示),显示出与complestatin和corbomycin相似的功效。
接着,研究人员使用MRSA的噁唑烷酮(oxazolidinone)耐药临床分离株,进一步测试了小鼠中性粒细胞减少性大腿感染模型中,化合物1的全身给药。
与载体处理相比,用80mg/kg的化合物1处理可显著降低平均细菌负荷约1.2个log(如下图所示)。
化合物1在大腿感染模型中的功效表明,化合物1和2,以及其它结构类似的化合物,可以作为新型候选抗生素进行开发。
AI比人类更快地挖掘数据集
「科学美国人」对研究背后团队的一篇采访中,更具体阐述了研究人员对AI在医学领域中作用的观点。
问:人工智能在筛选和识别新的抗生素化合物方面比人类有什么优势?
一般来说,人工智能和机器可以系统地、非常快速地挖掘结。或任何类型的数据集。
传统上,科学家大约需要花费12年的时间,才能发现一种新的抗生素。然后,再到发现任何临床候选药物,还需要3-6年的时间。
最后,你还需要将它们过渡到I期、II期和III期临床试验。
而现在,有了机器,便能够加速这一进程。
以我和同事的工作为例,我们现在可以在几小时内,发现数千,甚至数十万临床前候选药物,而无需等待3-6年。
总的来说,是人工智能帮我们实现了这一点。
问:为了将这类新的抗生素转化为临床药物,需要后续采取哪些步骤?
这里还是一个空白领域。你需要系统的毒性研究,然后是IND研究。
美国食品药品监督管理局会要求你进行这些研究,以评估这一令人兴奋的药物,是否可以过渡到I期临床试验。这是任何临床试验的第一阶段。
同时,我认为,这是AI在微生物学和抗生素领域取得一个非常令人兴奋的进步,我梦想有一天可以创造出能够拯救生命的抗生素。
问:这项新研究中确定的化合物,对小鼠体内的MRSA等微生物有有效的杀灭作用,对吗?
是的,他们在两种小鼠模型上进行了展示。有趣的是,研究表明这些化合物实际上能够减少小鼠模型中的感染
作为利用AI的另一个例子,我们最近在实验室中挖掘了已经灭绝生物的基因组和蛋白组,能够确定许多临床抗生素候选药物。
问:为什么让人工智能模型「可解释」,这一点很重要?
我认为,如果有一天我们将AI视为一门工程学科,这一点很重要。
在工程学中,你总是能够拆开构成某种结构的不同部件,你知道每一块都在做什么。但在人工智能和深度学习情况下,由于它是一个黑匣子,我们不知道中间过程会发生什么。
所以,开始挖掘「黑盒」以了解每个步骤中实际发生的事情,这对于我们将AI转化为工程学科是关键的一步。
正确方向的第一步是使用可解释的AI,以试图理解机器实际在做什么,让它变得不再是一个黑盒。