昇思MindSpore再突破:蛋白质结构预测训练推理全流程开源,助力生物医药发展

新闻 人工智能
蛋白质结构预测是获得蛋白质功能结构和构象的过程,近半个世纪以来,这一问题一直被誉为“21世纪的生物物理学”最重要的课题之一。

近日,昇思MindSpore与昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组及鹏城实验室陈杰团队基于全场景AI框架昇思MindSpore实现AlphaFold2蛋白质结构训练。继202111月发布推理工具后,本次训练意味着国产AI框架具备了强大的AI for Science底层软件能力,同时也为相关科研工作者提供新的选择。该联合工作依托鹏城云脑II 昇腾AI 集群进行,单步迭代性能提升超过60%TM-score85分(国际权威评测数据集CASP14)。相关训练代码已在昇思MindSpore社区开源,后续也会在Openl启智社区进行开源并定期扩展与维护。

T1052-D1 预测结构图(左)CASP14 87 targets TM-score 对比(右)

蛋白质结构预测是获得蛋白质功能结构和构象的过程,近半个世纪以来,这一问题一直被誉为“21世纪的生物物理学”最重要的课题之一。在过去,因蛋白质构象数量巨大,计算过程复杂,通过AI来对蛋白质结构进行预测一直未能取得实质性突破,获取蛋白质空间结构的方法仍然以冷冻电镜、X-ray等实验技术为主,单个蛋白质的观测成本高达数月及数百万人民币。直至AlphaFold2的出现,使得这一问题迎来新的曙光。AlphaFold2凭借其接近实验精度的成绩取得CASP14蛋白质空间结构预测比赛的榜首,这一成就也被Nature誉为“前所未有的进步”。

2021年7DeepMind宣布对AlphaFold2的推理代码进行开源,昇思与高毅勤课题组第一时间对其进行了复现及优化,并于同年11月开源了基于昇思MindSpore的推理工具,效率同比提升2-3倍。由于开源范围仅限推理,相关从业者无法基于此进行优化,因此许多团队积极地投入训练过程的复现。AlphaFold2模型本身存在内存需求大,数据处理繁琐,控制编译复杂等特点,对基础AI框架存在着巨大挑战。

近期,昇思MindSpore联合高毅勤课题组、鹏城实验室陈杰团队全面打通AlphaFold2的训练。采用昇腾基础软硬件平台后,在混合精度下,单步迭代时间由20秒缩短到12秒,性能提升超过60%。依托昇思MindSpore内存复用能力, 训练序列长度由384提升至512

为了尽可能客观地评估训练结果,昇思MindSpore选取了AlphaFold2论文附录中提到的87条验证集进行验证,平均TM-score达到85分,基本持平AlphaFold2

昇思MindSpore对蛋白质结构预测训练推理的支持填补了国产AI软硬件的空白。在训练精度接近AlphaFold2的基础上,昇思MindSpore将在算法、规模和软硬件支持等方向上持续改进,并计划开放共享训练数据集供同仁使用。昇思MindSpore也期望与更多学术界和工业界伙伴合作,进一步提升模型精度、扩展应用场景。

代码开源路径:

https://gitee.com/mindspore/mindscience/tree/dev/MindSPONGE/mindsponge/fold

昇思MindSpore

Giteehttps://gitee.com/mindspore/mindspore

Githubhttps://github.com/mindspore-ai/mindspore



责任编辑:黄显东 来源: 51CTO
相关推荐

2023-06-21 09:10:04

FAAST

2021-07-24 10:21:46

模型人工智能深度学习

2021-12-20 10:07:35

AI 数据人工智能

2023-07-06 13:23:49

2023-07-06 16:59:56

英特尔

2023-03-03 14:00:00

模型深度学习

2024-04-22 07:20:00

训练开源

2022-11-02 13:41:46

2023-07-13 12:53:02

FrameDiffAI

2022-10-08 12:38:23

模型开源

2022-02-14 00:04:24

AI蛋白质结构

2024-08-22 18:45:27

2023-09-20 12:44:00

AI训练

2009-08-14 10:56:09

曙光高性能生物

2024-08-26 12:43:46

2023-10-04 09:23:21

微软开发

2020-11-17 14:53:54

腾讯 蛋白质AI
点赞
收藏

51CTO技术栈公众号