Nature重磅研究:AlphaFold绘制病毒「族谱」,揭开身世之谜

人工智能
除了蛋白质设计和药物发现,Nature上最近刊登的一篇论文又解锁了AlphaFold这类生物大模型的新用途——揭示生物的亲缘关系和进化史。

今年7月,被Meta解散的ESMFold团队成功另起炉灶,发布了他们最新的生命科学大模型ESM3,打出的slogan正是「用语言模型模拟5亿年进化。」

图片图片

论文地址:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

这个用途,很快就被生物学家们敏锐地捕捉到了。

最近发表的很多工作中,科学家们正在用AlphaFold和ESMFold等模型,重新绘制病毒谱系,探索到了一些令人惊讶的「亲缘关系」。

这些成果,不仅可以揭秘病毒家族的进化史,还能让我们更好地应对未来的生化风险。

图片图片

如果用传统方法,科学家们需要根据基因组比较的结果来理解病毒进化。

但是和哺乳动物比起来,病毒的进化速度可以说是快如闪电,尤其是基因由RNA组成的病毒,需要比对的基因组数量和复杂度就会急遽增加。

此外,病毒的进化不仅来源于基因突变,它们还可以从其他生物体获取遗传物质,这就辨识病毒「亲缘关系」的工作更加困难。看起来大不相同的基因序列,可能隐藏着病毒之间非常深层而遥远的关系。

相比病毒的基因,它们编码的蛋白质的形状或结构变化往往比较缓慢,然而英国格拉斯哥大学的分子病毒学家Joe Grove表示,在AlphaFold等工具出现之前,即使是整个病毒家族的蛋白质结构,也很难靠传统方法完成研究和比较。

Grove和他的团队最近在Nature上发表的一篇论文,正是借助了大模型的力量,通过糖蛋白的结构揭示了黄病毒科的进化史。

图片图片

论文地址:https://www.nature.com/articles/s41586-024-07899-8

黄病毒包括丙型肝炎病毒、登革热病毒和寨卡病毒,以及一些主要的动物病原体,还有一些可能对人类健康构成新威胁的物种。

病毒如何进入细胞

自从疫苗大范围接种后,丙肝成为了我们不太熟悉的一种传染病,但这个病毒每年依旧造成了数十万人的死亡。

如果要开发更为有效的丙肝疫苗,我们就需要理解黄病毒是凭借哪个蛋白质进入细胞的(其中就包含糖蛋白),这些蛋白质也同样决定了病毒能够感染哪些宿主。

如果仅在序列层面研究、比对,你会发现各个病毒的蛋白质差异如此之大,很难找到有意义的联系。但如果借助生物大模型的蛋白质结构预测功能,这个难题将迎刃而解。

研究人员使用DeepMind的AlphaFold 2模型,和Meta开发的结构预测工具ESMFold,为458种黄病毒的蛋白质生成了超过3.3万个预测结构。

丙型肝炎病毒糖蛋白结构预测丙型肝炎病毒糖蛋白结构预测

之所以同时使用AlphaFold和ESMFold两种模型,是由于二者之间的一个本质差异。

AlphaFold的输入需要依赖于相似蛋白质的多个序列,但ESMFold不同,它是在数千万个蛋白质序列上训练的「蛋白质语言模型」,可以只接受耽搁序列作为输入,因而非常适合深入分析那些最「神秘」的病毒。

这些结构的预测结果让研究人员们发现了一些意想不到的联系,有些和黄病毒看似八竿子打不着的亲戚,也能用类似蛋白作为「钥匙」来进入细胞。

比如,丙肝使用的细胞感染系统和瘟病毒就非常类似,包括比较经典的猪瘟,以及其他的动物病原体。

AI辅助工具还能告诉我们,丙肝和瘟病毒所用的「进入系统」和其他病毒非常不同。对此,Grove也很难做出解释:「对于丙型肝炎和它的亲戚们,我们不知道它们的进入系统来自哪里,可能是那些病毒很久以前发明的。」

从细菌中得到「盗版」蛋白

除了瘟病毒,预测的结构还帮黄病毒找到了两个「亲戚」——寨卡病毒和登革热病毒,它们的进入蛋白似乎有相同的起源;此外,黄病毒似乎还从细菌那里「窃取」了一种酶并据为己有。

使用ColabFold–AlpahFold2预测登革热病毒蛋白的结构使用ColabFold–AlpahFold2预测登革热病毒蛋白的结构

此前,悉尼大学病毒学家Mary Petrone的团队也曾在一种奇怪的黄病毒中发现了类似的「盗窃」行为。

她表示,「在黄病毒的进化过程中,『基因盗取』可能发挥了比我们之前认为的更大的塑造作用。」

瑞士洛桑大学的计算生物学家David Moi还指出,考虑到AI辅助工具未被发掘的潜力,黄病毒研究只是冰山一角。

借助人工智能,其他病毒,甚至很多细胞生物的进化历史都很可能被重写。

「我们将用新一代工具重新讲述它们的故事。既然我们现在能看得更远,所有这些生物的进化历史都需要更新。」

在生命科学的很多未解之谜中,AI所迸发出的巨大能量让我们看到了答案的曙光,也让我们期待着故事被改写的那一天。

参考资料:https://www.nature.com/articles/d41586-024-02970-w

责任编辑:武晓燕 来源: 新智元
相关推荐

2009-11-19 11:03:51

Oracle LogM

2011-06-28 13:43:50

Java EE

2010-01-25 09:40:15

2009-11-16 10:56:20

多业务路由器

2021-07-16 14:16:51

AI 算法人工智能

2010-01-06 13:45:43

SAN交换机

2009-11-10 15:36:02

路由器技术

2009-12-30 16:20:53

2009-11-03 15:33:45

ADO.NET Tra

2009-11-10 13:03:54

2009-12-24 14:32:50

ADSL接入网

2024-05-09 11:08:22

2021-10-17 23:04:41

Nature论文科学

2010-08-17 14:09:44

多WAN路由器

2009-12-07 10:08:17

多WAN路由器

2009-12-09 16:33:28

网吧路由器带宽管理

2010-02-05 10:34:00

2009-12-04 15:05:22

ipcop软路由

2009-11-16 13:37:34

无线路由器

2010-01-22 16:18:33

程控交换机
点赞
收藏

51CTO技术栈公众号