60年首次！AI发现首批新抗生素，MIT重磅研究登Nature！人类有望对抗超级细菌-51CTO.COM

整整60年，人类在抗生素研究方面没有取得任何重要进展。

然而，这一空白被AI打破了！

最近，MIT的科学家们利用AI发现了一种全新的抗生素类别，用于对抗耐药性金黄色葡萄球菌（MRSA）。

21名研究者共同撰写了这篇论文，登上了Nature。

论文地址：https://www.nature.com/articles/s41586-023-06887-8

MRSA细菌，又称耐药金黄色葡萄球菌，已经困扰了人类多年。感染者轻则皮肤感染，重则感染肺部和血液，甚至危及生命。

根据欧洲疾病预防控制中心（ECDC）的数据，欧盟每年有近150000例MRSA感染，而每年死于抗菌素耐药性感染的有近35000人。

而发现对抗MRSA全新抗生素的，就是一种可解释的图神经网络。

在数百万化合物中筛选，研究人员在小鼠中测试了283种有前景的化合物，其中几种对MRSA有治疗效果。

LeCun、Tegmark等AI界的大佬纷纷动手转发了这一AI的重磅发现。

通过深度学习模型，AI又一次改变了医学领域的游戏规则。

有人表示，这更证实了a16z bio+health的创始人的观点：「AI是来治愈人类的，不是来杀死人类的。」

AI发现新型抗生素，280多种候选

这项发明，是人类对抗抗生素耐药性的转折点。

MIT医学工程与科学教授James Collins表示，通过这项研究，我们可以看到为了预测哪些分子可以成为良好的抗生素，AI模型是如何学习的。

「从化学结构的角度来看，我们的工作提供了一个在迄今为止从未有过的框架，在时间和资源上都很高效，同时具备深刻的洞察力。」

为了预测全新化合物的活性和毒性，团队使用的是深度学习模型。

模型使用人工神经网络自动从数据中学习和表征数据，无需显式编程。

这种图神经网络，越来越多地被用于药物发现中，来加速识别潜在的候选药物，预测其特性，并且优化药物的开发过程。

用于预测抗生素活性和人细胞毒性的深度学习模型的集成

为了研究耐甲氧西林金黄色葡萄球菌 (MRSA)，MIT的研究团队使用扩展的数据集，训练了一个广泛扩展的深度学习模型。

为了创建训练数据，团队评估了大约39000种化合物对MRSA的抗生素活性。

随后，他们将所得数据和有关化合物化学结构的细节，输入到模型中。

论文主要作者之一、MIT工学院和哈佛博士后Felix Wong表示，这个过程，仿佛就像在打开一个黑匣子。

「这些模型由模拟神经连接的超大规模数字计算组成，没有人真正知道引擎盖下面究竟发生了什么。」

化学空间的过滤和可视化

为了完善潜在药物的选择，研究人员又引入了3个深度学习模型。他们对这些模型进行了训练，以评估化合物对三种不同类型人类细胞的毒性。

通过将这些毒性预测与之前确定的抗菌活性相结合，研究人员准确地找到了能够有效对抗微生物，同时对人体伤害最小的化合物。

利用这套模型，他们筛选出了大约1200万种市售化合物。最终，这些模型确定了5种不同类别的化合物，根据分子中特定的化学结构进行分类，这些化合物对MRSA具有预测的活性。

随后，研究人员获得了其中约280种化合物，并在实验室环境中对MRSA进行了测试。通过这种方法，他们从同一类化合物中发现了2种最有希望的候选抗生素。

果然，在涉及两种小鼠模型（一种是MRSA皮肤感染模型，另一种是MRSA全身感染模型）的实验中，每种化合物都能将MRSA的数量减少10倍以上。

可预测抗生素结构的图神经网络

研究人员推断，可以使用神经网络模型来学习，与抗生素活性相关的化学子结构，从而预测相关的抗生素结构。

研究人员开发了一个叫做Chemprop的图神经网络平台，通过可解释的、基于子结构的方法，来引导探索化学空间。

可解释的人工智能

研究人员使用的图神经网络，包含了每个分子的原子和键中的信息，以现实中的子结构为依据进行预测。

确定这个基本原理可以为模型的可解释性提供保证：符合子结构规律的化合物将得到更高的分数。

利用这种方法，模型可以从大型化学库中识别潜在的抗生素：从药物再利用中心（包括约6000个分子）中发现了halicin和abaucin，并从ZINC15库（约1.07亿个分子）中发现了其他抗菌化合物。

通过在测量抗生素活性和人类细胞毒性的大型数据集上进行训练，极大地扩展了用于抗生素发现的图神经网络模型，并且假设可以使用图搜索算法在化学子结构水平上解释模型预测（如下图所示）。

由于抗生素类别通常是在共享子结构的基础上定义的，因此，子结构识别可以更好地解释模型预测，有效地探索化学空间，并促进发现新的结构类别。

基于这个训练有素的Chemprop模型，利用图的搜索算法，研究人员能够在单个分子的背景下确定具有预先指定阈值的原子数。

使用蒙特卡洛树搜索来确定包含至少8个原子并表现出大于0.1的高抗生素预测分数。

如上图a所示，蒙特卡洛树搜索包括选择初始子结构，迭代修剪子结构，以及选择删除，当子图作为输入传递到Chemprop时，预测得分很高。

过滤和可视化化学空间

研究人员用所有训练数据集重新训练了20个Chemprop模型的集成，从而产生了四个预测抗生素活性、HepG2细胞毒性、HSkMC细胞毒性和IMR-90细胞毒性的集成。

使用这些集成来预测12076365种化合物的抗生素活性，和细胞毒性特征，其中包括来自Mcule数据库的11277225种化合物，还有来自Broad Institute数据库的799140种化合物（如下图所示）。

根据预测的抗生素活性和细胞毒性过滤了感兴趣的化合物，最初仅保留了Mcule库中抗生素预测评分大于0.4的3004种化合物，以及从Broad Institute库中保留了抗生素预测评分大于0.2的7306种化合物。

上图是抗生素预测得分高和低的化合物（t-SNE图），显示了各种化合物的化学相似性或不相似性。

实验效果

接下来看一下模型发现的化合物是否具有抗生素的效果。

这里研究了化合物1在局部和全身给药时，对小鼠治疗MRSA的疗效。

实验使用氨基糖苷类和耐四环素的MRSA临床分离株，在中性粒细胞减少小鼠浅表皮肤感染模型中，测试了局部给药。

与载体相比，用化合物1处理可将平均细菌载量降低约1.2个对数（如下图所示），显示出与complestatin和corbomycin相似的功效。

接着，研究人员使用MRSA的噁唑烷酮（oxazolidinone）耐药临床分离株，进一步测试了小鼠中性粒细胞减少性大腿感染模型中，化合物1的全身给药。

与载体处理相比，用80mg/kg的化合物1处理可显著降低平均细菌负荷约1.2个log（如下图所示）。

化合物1在大腿感染模型中的功效表明，化合物1和2，以及其它结构类似的化合物，可以作为新型候选抗生素进行开发。

AI比人类更快地挖掘数据集

「科学美国人」对研究背后团队的一篇采访中，更具体阐述了研究人员对AI在医学领域中作用的观点。

问：人工智能在筛选和识别新的抗生素化合物方面比人类有什么优势？

一般来说，人工智能和机器可以系统地、非常快速地挖掘结。或任何类型的数据集。

传统上，科学家大约需要花费12年的时间，才能发现一种新的抗生素。然后，再到发现任何临床候选药物，还需要3-6年的时间。

最后，你还需要将它们过渡到I期、II期和III期临床试验。

而现在，有了机器，便能够加速这一进程。

以我和同事的工作为例，我们现在可以在几小时内，发现数千，甚至数十万临床前候选药物，而无需等待3-6年。

总的来说，是人工智能帮我们实现了这一点。

问：为了将这类新的抗生素转化为临床药物，需要后续采取哪些步骤？

这里还是一个空白领域。你需要系统的毒性研究，然后是IND研究。

美国食品药品监督管理局会要求你进行这些研究，以评估这一令人兴奋的药物，是否可以过渡到I期临床试验。这是任何临床试验的第一阶段。

同时，我认为，这是AI在微生物学和抗生素领域取得一个非常令人兴奋的进步，我梦想有一天可以创造出能够拯救生命的抗生素。

问：这项新研究中确定的化合物，对小鼠体内的MRSA等微生物有有效的杀灭作用，对吗？

是的，他们在两种小鼠模型上进行了展示。有趣的是，研究表明这些化合物实际上能够减少小鼠模型中的感染

作为利用AI的另一个例子，我们最近在实验室中挖掘了已经灭绝生物的基因组和蛋白组，能够确定许多临床抗生素候选药物。

问：为什么让人工智能模型「可解释」，这一点很重要？

我认为，如果有一天我们将AI视为一门工程学科，这一点很重要。

在工程学中，你总是能够拆开构成某种结构的不同部件，你知道每一块都在做什么。但在人工智能和深度学习情况下，由于它是一个黑匣子，我们不知道中间过程会发生什么。

所以，开始挖掘「黑盒」以了解每个步骤中实际发生的事情，这对于我们将AI转化为工程学科是关键的一步。

正确方向的第一步是使用可解释的AI，以试图理解机器实际在做什么，让它变得不再是一个黑盒。