近日,华为与高毅勤教授团队、田长麟教授团队、王申林教授团队合作,基于昇腾AI基础软硬件平台与昇思MindSpore AI框架开发了核磁共振波谱法(NMR)数据自动解析方法FAAST(iterative Folding Assisted peak ASsignmenT),利用昇思MindSpore SPONGE生物计算套件实现了NMR数据解析时间从数月到数小时的缩短,与现有方法相比效率提升超过10倍。
蛋白质是生命活动的主要承担者,获取蛋白质结构是现代药物研发流程中不可或缺的环节。由于药物一般在溶液态环境下与目标蛋白结合发挥作用,蛋白质的溶液态(动态)结构对于药物研发与生命活动研究具有重要意义。
蛋白质YgaP的硫氰酸酶结构域
核磁共振方法测得的溶液态结构(左)与X射线法测得的晶体态结构(右)
已有的蛋白质结构计算方法如MEGA-Fold/AlphaFold以预测单一构象为主[1][2],在模型预测信息和实验信息不一致时难以处理两者误差。如何应用AI模型辅助实验结构解析、应用实验信号帮助提高结构预测精度等问题依然亟待解决。核磁共振方法(NMR)是唯一一种以原子分辨率解析更贴近蛋白质在实际环境下的溶液态构象与动态结构的方法 [3],然而该方法存在数据解析速度慢的问题,平均单条蛋白需领域专家投入至少数月,而其中大部分时间都消耗在实验数据的解析和归属上。
为了提高 NMR 实验数据解析的速度和准确性,华为与高毅勤教授团队(昌平实验室、北京大学化学与分子工程学院和生物医学前沿创新中心(BIOPIC))、田长麟教授团队(中国科技大学、中科院强磁场科学中心)、王申林教授团队(华东理工大学生物反应器工程国家重点实验室)合作,基于昇腾AI和昇思MindSpore开发了NMR数据(NOESY谱)自动解析方法FAAST(iterative Folding Assisted peak ASsignmenT)[4],实现了NMR数据解析时间从数月到数小时的缩短,相关代码已通过在开源社区Gitee的MindSpore SPONGE 代码仓开源[5]。
现有方法核磁共振数据解析流程
FAAST核磁共振数据解析流程
FAAST方法融合了自主创新的AI+约束结构预测模型RASP(Restraints Assisted Structure Predictor),该模型可以生成满足NMR实验测得的结构约束的蛋白质结构。基于RASP模型,FAAST可以实现数据解析和结构预测的交互迭代,自动解析NMR数据并获取蛋白质动态结构与结构约束信息,在解析精度与领域专家解析持平的前提下,实现了NMR数据解析时间从数月到数小时的缩短。
解析精度对比
核磁共振方法各阶段耗时对比
FAAST 方法大幅降低了 NMR 实验数据解析的门槛。应用该方法,领域专家可以从繁琐的数据解析工作中释放精力,专注于实验设计和所得结构的生物学分析,推动生命科学研究和药物研发流程取得新突破。
北京大学博雅特聘教授、北大-清华生命科学联合中心研究员唐淳教授认为,该工作不仅可以将核磁共振实验约束引入到结构预测,还可以用来引入其他的约束。如质谱交联[6]、荧光共振能量转移[7]都可以作为距离约束,可以全面互补的来对蛋白结构优化。因此,高毅勤团队所开发的这一方法也会在整合结构生物学得到广泛的应用。
[1]Jumper J, et al. Highly accurate protein structure prediction with AlphaFold. Nature. 2021 Aug;596(7873):583-589. doi: 10.1038/s41586-021-03819-2. Epub 2021 Jul 15. PMID: 34265844; PMCID: PMC8371605.
[2]Liu S, Zhang J, Chu H, et al. PSP: million-level protein sequence dataset for protein structure prediction[J]. arXiv preprint arXiv:2206.12240, 2022.
[3]Lutomski CA, El-Baba TJ, Robinson CV, Riek R, Scheres SHW, Yan N, AlQuraishi M, Gan L. The next decade of protein structure. Cell. 2022 Jul 21;185(15):2617-2620. doi: 10.1016/j.cell.2022.06.011. PMID: 35868264.
[4Liu S, Chu H, Xie Y, et al. Assisting and Accelerating NMR Assignment with Restrainted Structure Prediction[J]. bioRxiv, 2023: 2023.04. 14.536890.
[5]https://gitee.com/mindspore/mindscience/tree/master/MindSPONGE/applications/research/FAAST
[6]Stahl, K., et al., Protein structure prediction with in-cell photo-crosslinking mass spectrometry and deep learning. Nat Biotechnol, 2023.
[7]Tang, C. and Z. Gong, Integrating Non-NMR Distance Restraints to Augment NMR Depiction of Protein Structure and Dynamics. J Mol Biol, 2020. 432(9): p. 2913-2929.