作者 | Bryan McMahon,编译 | bluemin,编辑 | 陈彩娴
自20世纪50年代DNA被发现以来,生物学家一直试图将基因序列的长度与一系列细胞成分和蛋白质合成过程联系起来,例如,包括为现在著名的mRNA疫苗助力的特定抗体的mRNA转录过程。
尽管自DNA发现以来,在基因组测序和理解方面取得了一定进展,但仍缺失一个重要环节。生物学家缺乏一种仅使用未知蛋白质的DNA或RNA源序列就能准确有效地预测其三维形状的方法。在生物学中,结构决定功能。蛋白质在细胞中的作用取决于其形态。中空的圆柱形结构有利于形成良好的膜受体,而U型酶在峡湾状空腔中催化化学反应。能够预测甚至设计蛋白质结构对于人类疾病理解将是一个飞跃,并会为一系列疾病解锁新的治疗方法。
但70多年来,科学家们一直在使用令计算机不堪重负的慢方法,并且主要依靠自己的猜测来梳理蛋白质的结构。尽管生物学家知道构成每种蛋白质的每种氨基酸的DNA编码长度,但他们缺乏一个可重复、可推广的公式来解决所谓的“蛋白质折叠问题”。他们需要系统地了解任何一串氨基酸一旦连接起来,将如何折叠成三维形状,从而解开浩瀚的蛋白质宇宙。
来源:DeepMind
2020年,谷歌的人工智能团队DeepMind宣布其算法AlphaFold解决了蛋白质折叠问题。
起初,大多数人都对这一惊人的突破兴奋不已,科学家们随时准备测试这种新工具,也激发了一些人的兴趣。这不就是几年前推出AlphaGo,使其在中国战略游戏围棋中击败世界冠军的那家公司吗?掌握一个比国际象棋更复杂的游戏,虽然难度很大,但与蛋白质折叠问题相比,感觉微不足道。
但是AlphaFold通过一年一度的竞赛证明了其科学勇气,在该竞赛中,生物学家团队仅根据蛋白质的基因序列猜测蛋白质的结构。该算法远远超过了人类竞争对手,发布了预测最终形状在一埃(单个原子的宽度)内的分数。不久之后,AlphaFold通过了第一次真实世界测试,正确预测了SARS-CoV-2“刺突”蛋白的形状,该蛋白是病毒显而易见的靶向疫苗的膜受体。
来源:《Nature》
AlphaFold的成功很快就变得不容忽视,科学家们开始在实验室里试用这种算法。到2021年,《科学》杂志将AlphaFold的开源版本冠以“年度最佳方法”。生物化学家兼《科学》杂志主编H. Holden Thorp在一篇社论中写道:“蛋白质折叠方面的突破是有史以来在科学成就和未来研究方面最伟大的突破之一。”
今天,AlphaFold的预测非常准确,经过70多年的思索,蛋白质折叠问题被认为已经解决。虽然蛋白质折叠问题可能是迄今为止AI在科学领域最引人注目的成就,但AI正在许多科学领域悄然取得新发现。
通过加速发现过程并为科学家提供新的调查工具,AI也正在改变科学研究的方法。
这项技术升级了显微镜和基因组测序仪等研究支柱,为仪器增加了新的技术能力,使其功能更加强大。AI驱动的药物设计和重力波探测器为科学家提供了探测和控制自然界的新工具。
在实验室之外,AI还可以部署先进的仿真和推理系统,以开发真实世界的模型并使用它们测试假设。随着科学方法的广泛影响,AI正在通过突破性的发现、新技术和增强工具,以及提高科学过程速度和准确性的自动化方法,引发一场科学革命。
来源:AI辅助的超分辨率宇宙学模拟
除了蛋白质折叠问题以外,从宇宙学和化学到半导体设计和材料科学,AI在许多领域的发现证明了其科学价值。
例如,DeepMind的团队设计了另一种计算分子的电子密度的算法,击败了科学家60年来一直依赖的快捷方法。了解给定分子的电子密度对于理解材料的物理和化学性质大有裨益。但由于电子受量子力学支配,计算特定电子的密度需要复杂的方程,很快演变成计算噩梦。相反,科学家们利用材料电子的平均密度作为引导,避开了困难的量子计算。然而,DeepMind的算法直接解决了量子方面的问题,并被证明比快捷方法更精确。
与蛋白质折叠问题类似,AI能够超越科学家几十年来沿用的方法,并解锁了准确预测物理和化学性质的新方法。
AI对科学的影响在四个关键方面超越了该技术的新发现。
首先,AI可以快速阅读科学文献,从而了解科学的基本规则、事实和方程式,并帮助科学家管理淹没各个领域的大量论文和数据。仅在2020年,就有10万到18万篇关于COVID-19的科学期刊发表。
尽管研究人员将重心放在与持续的全球大流行一样紧迫的事情上是有道理的,但关于COVID-19的论文仅占最大生物医学数据库总文章的4-6%左右。产生的论文和数据浪潮远远超出任何科学家的阅读能力,使研究人员无法真正跟上各自领域的创新步伐。
这正是AI的用武之地。
例如,在药物化学领域,Insilico公司正在进入完全由AI设计的药物I期临床试验阶段,该药物旨在治疗一种称为特发性肺纤维化(IPF)的疾病。Insilico的算法通过阅读医学文献来选择疾病目标,以找到潜在的蛋白质、细胞或病原体进行精确定位。一旦选择了目标,该算法就可以设计一种治疗方法来治疗疾病。Insilico开发了一个用于药物发现的端到端AI平台,该平台可以自动掌握该领域的最新结果和数据,以便科学家能够了解情况而不会不知所措。
来源:图片由美国阿贡国家实验室领导计算设施、可视化和数据分析组提供
其次,随着仪器更加精密以及探索自然奥秘的逐步深入,科学家们需要面对海量数据。AI同样可以在此方面大展身手。
阿贡国家实验室(Argonne National Laboratory, ANL)的一组科学家研发了一种算法,该算法可以理解引力波,即爱因斯坦预测的时空连续体结构中的涟漪,但直到2015年才被发现。该算法在7分钟内处理了一个月的数据量,提供了一种可加速、可扩展和可重复的引力波检测方法。而且该算法还可以在标准图形处理单元(GPU)上运行,研究人员无需使用专门设备收集和解释引力波数据。
ANL数据科学与学习 (DSL) 部门主管Ian Foster说:“这个项目让我兴奋不已,它展示了如何通过正确的工具,将人工智能方法自然地集成到科学家的工作流程中,让他们更快更好地完成工作,增强而非取代人类智能。”借助人工智能,曾经的海量数据现在变成了加速科学发展步伐的可控信息流。
第三,AI一直在悄悄升级实验室的一些长期支柱:显微镜和DNA测序仪。
在ANL,研究人员找到了一种方法来提升电子显微镜可检索到的有关样品的信息量,同时提高仪器的分辨率和灵敏度。不同于许多人在高中或大学生物课上熟悉的显微镜,因为电子显微镜不依赖可见光来构建图像。相反,顾名思义,它们使用电子,这使它们能够以比其他显微镜更高的分辨率和更精细的构造拍摄图像。
ANL的研究人员设计了一种在电子显微镜上使用AI记录相位数据的方法,该方法可以传递有关样品物理和化学性质的关键信息,从而提高仪器的功率和容量。
与此类似,AI的另一个升级功能是在所谓的光场显微镜中发现的,它可以拍摄高清晰度的3D运动图像。科学家通常需要几天的时间来重建视频,但有了AI后,处理这些运动中的高分辨率数据所需的时间缩短到几秒钟,而不会丢失分辨率或细节特征。
DNA 测序仪是基因组时代的主力军,也得到了AI的增强。今年早些时候,一组科学家利用AI将DNA测序所需时间减半,并希望很快再次减半。简言之,人工智能正在升级最基本的科学工具。
来源:《Science》
最后,AI在实验室中真正大放异彩的地方是模拟复杂系统,使其成为基础科学研究中越来越标准的工具。
去年,研究人员通过在物理学、天文学、地质学和气候科学等十个科学领域建立突破性的模拟实验,展示了AI的多学科能力。
所有10个仿真器均由同一个称为DENSE的深度神经网络进行训练,与其他方法相比,在保持准确性不变的前提下,仿真速度提高了10亿倍之多。
至关重要的是,仿真器可用于解决“逆问题”,即研究人员知道结果但想找出哪些变量会导致输出。AI擅长这种计算,并且可以很容易地找出通向特定答案的路径。
虽然模拟很有用,研究人员也希望确保他们的模型在现实世界中有效。谷歌和三星这两家领先的科技公司最近转向AI来规划其部分芯片的布局。
谷歌得出的结论是,人工智能设计的芯片“对于所有关键指标,包括功耗、性能和芯片面积,都优于或可与人类生产的芯片相媲美”。更进一步,该公司使用AI来设计其下一代AI加速器(TPU是AI制造的芯片,而不是标准的CPU或GPU)。
同样,三星依靠AI芯片设计软件创建了Exynos,这是一种用于可穿戴产品和汽车的芯片。凭借其高保真模拟,AI为科学家们提供了一种强大的工具,正在彻底改变他们对自然世界进行建模和实验的方式。
来源:AI支持对COVID-19患者的快速诊断
对于AI的建模能力,没有比COVID-19大流行更好的现实测试了。
首先,蛋白质折叠算法AlphaFold正确预测了重要的“刺突”蛋白质,展示了AI在未来的大流行中如何加速疫苗或疗法的研发。但也许更令人印象深刻的是,在2020年夏天,日本科学家使用世界上最强大的超级计算机Fugaku来模拟COVID-19 在空气中的传播。
在深度神经网络和数千个GPU的支持下,Fugaku向世界提供了病毒是通过空气传播的决定性证据,并说服WHO相应地改变其控制COVID-19的指导方针(例如,口罩、通风以及室内与室外活动的风险)。在现实世界中,AI通过在危机期间为全球缓解战略提供信息来证明其价值。
除了做出新发现和为科学武库添加新工具外,AI还可以发现数据中的模式,做出可测试的预测,并使用它们将新证据纳入其模型,反映科学方法。
哲学家Karl Popper普及了这样一种观点,即科学是通过抛弃可证伪的假设而进步的,这些假设可以通过实验进行检验并证明是错误的,而这种通过理论和实验消除的过程是科学方法的一个标志。
正如AI最近的一些突破所表明的那样,该技术还产生了可以通过实验测试的假设,并通过排除过程提供了一个严格且可证伪的答案。
DeepMind 的电子密度模型通过逼近科学过程并在预测和实验之间迭代反馈,直到更好地掌握了量子计算,从而击败了研究人员。
AI通过在数千个实验确定的蛋白质上测试其模型,细化猜测,并通过赋予更接近解决方案的分支更高权重来修剪神经网络,从而解决了蛋白质折叠问题。研究人员构建了AlphaFold的开源版本之后,其他科学家可以利用该模型解开RNA结构如何折叠以及蛋白质如何结合在一起的谜团。
来源:端到端刚性对接的独立SE(3)等变模型
总体而言,理解蛋白质的结合为强大的新药研发打开了大门,因为细胞中的许多反应都是蛋白质协同作用的结果。这两项进步开启了治疗设计的新时代,即利用端到端的AI管道定位疾病并设计精确的治疗方法。
例如,华为人工智能实验室的一个研究团队使用该模型的一个版本自动生成了针对目标感染的抗体。从药物设计到蛋白质结合,人工智能对自然界建模、分析和控制的能力只会继续提高。
DeepMind的最新突破是将AI应用于控制和维持核聚变反应的问题。AI成功地控制了氢和氦的融合反应,为宇宙中的每颗恒星提供了创纪录的能量,并发现了稳定保持等离子体的新形状。这项实验是朝着开发可行的聚变能源迈出的重要一步,聚变能源可以提供足够的可再生能源,并为世界提供动力。
这个案例突出了AI在科学中最有希望的应用:它看到了我们无法看到的模式,并从不同但互补的角度分析了我们的环境。与研究人员合作并以科学方法为基础,AI能够利用支撑科学过程的迭代理论和实验解决同样的探索性问题。
科学可以最好地描述为对未知事物的探索。在这段旅程中,AI是一个伙伴,它以不同于我们的方式感知自然世界及其未探索的部分,开辟了理解和利用世界力量的新途径。
正如索尼研究主管Hiroaki Kitano所描述的那样,基于AI可模拟的假设、实验和数据的自校正系统,科学发现是一个“搜索”问题。但在搜索过程中,AI不仅仅是科学家和合作伙伴手中的强大工具。这项技术也在改变科学过程,实现自动化并增加人们使用它可以完成的任务。人工智能正在引领一场新的科学革命,在多个领域取得了显著突破,开启了科学研究新途径,加快了科学创新步伐。作为合作伙伴,AI将会与科学家共同探索更多无止境的科学前沿。