突破AlphaFold3预测局限,超算安腾让科学家看到动起来的蛋白质

业界
2020年,谷歌旗下公司DeepMind发布了AlphaFold,实现通过靶点蛋白质的序列来预测三维静态结构,成功解决了生物学界50年的难题。今年5月,DeepMind发布了升级后的AlphaFold3,它能够以前所未有的「原子精度」预测出所有生物分子的结构和相互作用,包括蛋白质、核酸(DNA/RNA)和更小分子的3D结构,并揭示它们如何组合在一起。AlphaFold3一经推出就登上Nature头

2020年,谷歌旗下公司DeepMind发布了AlphaFold,实现通过靶点蛋白质的序列来预测三维静态结构,成功解决了生物学界50年的难题。今年5月,DeepMind发布了升级后的AlphaFold3,它能够以前所未有的「原子精度」预测出所有生物分子的结构和相互作用,包括蛋白质、核酸(DNA/RNA)和更小分子的3D结构,并揭示它们如何组合在一起。AlphaFold3一经推出就登上Nature头版,掀起了AI学术圈的巨震。谷歌DeepMind联合创始人、CEO Demis Hassabis表示,AlphaFold3的发布是一个重要的里程碑,在AI理解和建模生物学的道路上,AI又迈出了重要一步!

对于药物研发而言,预测分子如何相互作用是一件非常重要的事情,因为大多数药物的作用原理是与目标蛋白质结合。通过AlphaFold的结构预测研究蛋白质与蛋白质(或其它分子)之间的相互作用,进而确认功能单位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子结构。因此,AlphaFold提供的结构预测能力兼具极大的学术和商业价值,受到了全世界研究者的瞩目。

AlphaFold的神经网络模型构架丨图片来源:DeepMind Blog

不过,AlphaFold3真的就是生物研究者和制药学家的完美解决方案了吗?很遗憾,答案是否定的,其中最关键的原因是,AI结构预测模型通常只能预测生物分子的静态3D结构,而不是溶液中生物分子系统的动态行为,这种限制在AlphaFold3中也仍然存在。这对于研究来说是一个巨大的局限,因为客观的真实世界是时刻动态变化的,预测静态3D结构意味着只能在一个复杂的运动过程中截取一个瞬间的片段切片,要想基于一个切片把完整的运动过程研究清楚,显然是不切实际的。

我国著名的结构生物学家、中科院院士颜宁曾在2022年的青年科学家50²论坛上分享她关于AI与结构生物学未来的看法。颜宁老师表示,虽然非常看好AI的未来,但现在来看它还是非常有局限性的,小分子是一个无穷的化学世界,想要去计算难度很大,短时间内并不看好AI可以真正取代实验技术。关于结构生物学未来,她认为,一是原位的结构生物学,即细胞内部时空分辨率的结构生物学,二是不同构象以及它们的变化的速度,如何去理解细胞里各个分子的动态变化,是目前面临一个最大的挑战。“理解自然本身就是很美妙的事情。你不理解就寝食难安。如果看到它的不同的构象,就会发现新的药物靶点,就会理解一些突变是怎么样导致疾病的,而仅靠一个构象是没有办法呈现这些的”,颜宁老师称,自己最终极的职业目标就是从非常高的时空分辨率上理解细胞里小小分子世界。

颜宁老师提及的“时空分辨率”的关键所在,就是AlphaFold缺失的动态构象信息。AlphaFold就像是一个生物分子的3D摄影师,可以为研究者提供非常高清的生物分子结构预测的“照片”,但是,对于生物学家和制药学家来说,他们追求的是看到生物分子整个动态变化的“影片”。正如颜宁老师所说,很多时候单纯的“看到”就已经可以帮助到“理解”,显然,“看到”富含动态构象信息的分子“影片”将会比过去的静态“照片”更加提升科学家的“理解”水平。

那么,是否有办法能够补全AlphaFold在生物分子动态信息方面的短板呢?这就不得不提到计算生物学里面专门用于研究分子动态构象变化的分子动力学(Molecular Dynamics,简称MD)了。分子动力学是一种发展了几十年的计算机模拟实验方法,该技术不仅可以得到原子的动态运动轨迹,还可以观察到原子运动过程中各种微观细节。它是对理论计算和实验的有力补充,广泛应用于材料科学、生物物理和药物设计等。

只不过,由于使用分子动力学模拟构象态之间的过渡轨迹需要耗费巨大的计算成本,举例来说,人体内典型的大分子蛋白质往往由几十万到上百万个原子构成,假设我们用分子动力学模拟方法计算一个50万原子的蛋白质运动0.001秒的“影片”,哪怕用上1000颗主流CPU并行计算,都需要耗费超过100年的时间。这个巨大的限制让分子动力学的方法在过去一直都没法成为研究界的主流。

2013年,分子动力学在计算效率方面的窘境终于迎来了突破的转机。这一年,美国D. E. Shaw研究所发布了分子动力学专用超级计算机安腾的第二代,它的算力的效率可以轻松达到传统超算的100-10000倍,在超算安腾的支持下,科学家能够以天为单位轻松完成微秒级的蛋白质动态仿真计算,甚至可以直接看到毫秒级蛋白质运动的动态“影片”。超算安腾一经发布就引起全世界范围内的关注,在往后的几年里,通过超算安腾发表在Cell、Nature、Science等顶刊的论文数量都达到了几十篇,可以说,超算安腾几乎凭借一己之力让美国生物计算领域的发展领先了世界十年以上。

安腾超级计算机丨图片来源:网络

D. E. Shaw研究所的单一兵博士等曾在2020年发表文章,描述了通过超级计算机安腾看到的“动起来的蛋白质”的画面:利用超算安腾的超长时间模拟,观察到结合在蛋白表面的成药小分子,从一个结合口袋逐步“爬行”到另一个结合口袋,在此过程中蛋白构象发生变化,其隐匿口袋打开。类似这样的研究成果在过去是不可想象的,并且它具有能够颠覆传统生物制药研究范式的重大意义。

目前,有部分科学家已经开始展望将AlphaFold3这样的AI静态构象预测工具,与分子动力学这样的动态构象模拟计算工具相结合的应用场景。

首先,由于分子动力学模拟计算的参数输入需要的正好就是蛋白质的静态构象文件(PDB文件等),因此通过AlphaFold3预测出来的大量蛋白质静态结构正好可以作为分子动力学模拟计算的输入,通过AlphaFold3+分子动力学模拟的组合拳,科学家和制药学家可以针对想要研究的生物现象或潜在的成药靶点和成药分子,在AI模型里面进行自由的探索和批量的预测,随后针对其中有价值的预测成果,再通过长时间的分子动力学模拟来补充更多的动态构象信息,来帮助发掘更多有价值的成果,最后再通过实验进行精确的验证。可以预见到,这样的全新研究范式将会极大加速相关研究和药物研发的效率和精度。AlphaFold3的预测本来就不需要耗费很长时间,而类似超算安腾这样的高性能超算又让过去动辄耗时数周数月的分子动力学模拟的部分变成了几小时就可以完成的工作量,如此一来,这样的研究模式让很多研究者都看到了极大的潜力。

更进一步的,由于AI需要大量的数据进行模型训练,而过去能够获取的生物分子结构数据几乎都是依靠冷冻电镜等显微镜获取的静态构象,因此诸如AlphaFold这样的AI模型也只能依靠静态构象数据的训练得到静态构象的预测能力。试想如果能够给AI提供大量基于分子动力学模拟得到的生物分子动态构象数据来训练,是否就有机会在未来的AlphaFold4/5/6代实现动态构象数据的AI预测能力了呢?届时,AlphaFold应该就可以真正升级为AlphaDynamics,到那时,颜宁老师关于从非常高的时空分辨率上观测微观世界的目标可能就真的彻底被高效率地实现了。

不过,上述很多的构想,都需要依托于超算安腾对于分子动力学模拟计算的加速能力,否则,构想中的研究方法依然是需要耗费大量时间算力的“奢侈品”。可惜的是,目前世界上仅有的几台超算安腾都被安置在匹兹堡超算中心和位于纽约市的D. E. Shaw研究所中,并且其上机时间会严格根据提交给美国国家科学院独立专家委员会的研究提案分配,只接受美国学术机构的使用申请,严格禁止中国等其他国家科学家使用。因此,对于世界上绝大多数科学家来说,分子动力学模拟算力依旧是极其稀缺的研究资源,要想像超算安腾那样实现超高速大体系长时间的分子动态模拟,就只能依靠在传统超算中心上付出数十倍于超算安腾的计算时间和成本。

对于我国来说,超高性能的分子动力学算力将会成为决定生命科学和生物制药这样高精尖领域竞争的基石。凭借超算安腾的垄断算力,美国一家曾经默默无闻的AI制药公司Relay Therapeutics,仅用18个月、不到1亿美金,就确认了一款用于治疗胆管癌的高选择性FGFR2抑制剂药物RLY-4008的结构,这样的研发效率打破了多年来“新药研发费用超10亿美元,研发周期超10年”的双十魔咒,震惊了世界,也让Realy在医药圈一战成名。如果再叠加AlphaFold的数据库,药物研发的效率很可能会进一步大幅提升。

英伟达CEO黄仁勋曾惊叹,“未来生命科学会像传统行业那样高度工程化。当数据科学、人工智能和自动化的结合时,生物学会呈指数级改进,从而成为下一个黄金赛道。” 在这条黄金赛道上,我们必然不能缺席,并且高性能的超算很可能会成为赛道准入的重要入场门票之一。

当然,我们国家目前已经是世界公认的超算大国,在顶尖的通用超算竞争领域,已经有“太湖之光”“海洋之光”等足以媲美世界最强性能的国产超算不断在诞生和迭代超越。不过,在超算安腾制霸的分子动力学专用超算领域,目前似乎还没有效率足够匹敌的方案出现,我们希望在不久的将来也能拥有追赶和媲美超算安腾的、属于我们自己的超高性能的专用领域超算。

责任编辑:企业资讯
相关推荐

2021-07-24 10:21:46

模型人工智能深度学习

2023-07-06 13:23:49

2023-07-06 16:59:56

英特尔

2022-02-14 00:04:24

AI蛋白质结构

2021-12-20 10:07:35

AI 数据人工智能

2024-05-09 11:08:22

2023-03-03 14:00:00

模型深度学习

2023-12-20 14:11:55

人工智能

2022-11-02 13:41:46

2023-03-02 13:49:25

开发蛋白质

2021-07-30 15:36:54

开源技术 软件

2022-07-28 19:31:39

AlphabetDeepMind扩展数据库

2021-11-19 15:14:41

VR虚拟现实

2022-03-07 14:45:21

昇思MindSpore开源

2023-11-01 13:47:12

模型研究

2024-06-03 07:30:00

2022-07-22 14:49:37

语言模型DeepMindAlphaFold2

2021-11-22 09:39:21

深度学习神经网络人工智能

2012-12-06 15:36:55

CIO

2017-08-04 15:53:10

大数据真伪数据科学家
点赞
收藏

51CTO技术栈公众号