本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
AlphaFold和RoseTTAFold等AI的横空出世,可以说打开了蛋白质预测新世界的大门。
而现在,依靠这俩AI模型的“组合拳”,科学家们又有了新的突破:
首次确定了超过100种“疑似”全新蛋白质复合体,并为700多种此前结构未知蛋白质复合体提供了3D结构预测。
也就是说,现在,AI现在不仅能预测蛋白质单体,还能成功预测蛋白质之间的相互作用了。
研究人员兴奋地表示:
我们的结果是结构生物学新时代的一个重大进展。
在这个时代,计算将在结构生物学中起到根本性的作用。
这项研究来自德州大学西南医学中心和华盛顿大学领衔的国际团队。
论文已经发表在《Science》上。
“结构生物学新时代的重大进展”
我们知道,蛋白质通常以复合物的形式成对或成组地发挥功能,以完成生物体生存所需的种种任务。
但现今为止,许多真核生物蛋白质复合物的结构仍然成谜,其中蛋白质之间的相互作用也尚未被识别。
而这篇Science论文完成的主要工作,就是将基于深度学习的蛋白质预测方法,引入到了蛋白质复合体的研究当中。
具体而言,研究人员利用全蛋白质组氨基酸协同进化分析和“RoseTTAFold + AlphaFold”的组合,系统地识别和建立了真核生物核心蛋白质复合物的精确模型。
RoseTTAFold和AlphaFold的作用,都是根据氨基酸序列预测蛋白质的3D结构。
有所不同的是,RoseTTAFold速度更快:采用了3轨注意力机制,分别关注蛋白质的一级结构、二级结构和三级结构;再通过在三者之间加上多处连接,使整个神经网络能够同时学习3个维度层次的信息。
此次的论文还提及,RoseTTAFold团队设计了一个双轨道模型,虽然准确率有所损失,但在计算时间上要比AlphaFold快100倍。
而通过实验,研究人员认为,采用双轨注意力机制的AlphaFold在预测蛋白质复合体方面会有更高的准确率。
因此,在这项研究中,研究团队结合了两者的优势:
首先在酵母菌的基因组中寻找以相互关联的方式获得突变的基因。
然后,利用上述两种AI技术确定这些蛋白质是否可以组合成3D结构。
研究人员最终从酵母菌里筛选出了830万对蛋白质,并从中识别出1505种可能的蛋白质复合体。
其中699个蛋白质复合体的3D结构已经在此前的实验中被解析出来。
剩下的806个中,有实验数据支持的预测结果有700个,另外106种属于从未被描述过的全新蛋白质复合体。
这项工作为类似的人体蛋白质相互作用研究奠定了基础,最终可能有助于开发治疗人类疾病的新疗法。
华人领衔的研究团队
这项研究由德州大学西南医学中心助理教授丛倩团队和华盛顿大学蛋白设计研究所教授David Baker团队联合发表。
论文共同通讯作者丛倩本科毕业于北京大学。2017年-2020年在华盛顿大学David Baker教授门下任博士后。
她也是RoseTTAFold的作者之一。
论文另一位通讯作者David Baker是美国生物化学家和计算生物学家,现为华盛顿大学生物化学教授、华盛顿大学蛋白质研究所贝克实验室首席研究员。
正是他带领的团队一手打造了和AlphaFold2一起沸腾学术圈的RoseTTAFold。