本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
过去一年里,AI for Science技术成果集中爆发,在生物医药、材料、物理、化学、甚至数学上发挥出越来越重要的作用,不少学界、业内人士已经看到了AI在自然科学领域的巨大潜力。
AI for Science背后的价值到底有些什么?
带着这样的追问,微软研究院科学智能中心亚洲区负责人、微软亚洲研究院副院长刘铁岩和其带领的团队,进行了不倦追寻。
去年,刘铁岩团队发布了用于分子模拟的Graphormer模型。在MEET2023智能未来大会上,刘铁岩更是全面介绍了他对于AI4Science的理解,以及AI4Science如何作为科学发现的第五范式,和经验范式、理论范式、计算范式、数据驱动范式互相促进、水乳交融,共同推进科学研究的飞速发展。
为了完整体现刘铁岩的分享及思考,在不改变原意的基础上,量子位对他的演讲内容进行了编辑整理。
关于MEET智能未来大会:MEET大会是由量子位主办的智能科技领域顶级商业峰会,致力于探讨前沿科技技术的落地与行业应用。今年共有数十家主流媒体及直播平台报道直播了MEET2023大会,吸引了超过300万行业用户线上参会,全网总曝光量累积超过2000万。
演讲要点
- 人工智能还没能反映出人类智能里最光辉的一面——认识世界和改造世界。
- AI for Science值得称为第五范式。
- 利用AI手段更深一步的目的是修正对已有物理方程的理解,发现新的科学规律,实现科学研究的闭环。
- AI for Science将会对自然科学产生巨大影响,尤其在解释生命奥秘、以及保障环境可持续发展方面。
(以下为刘铁岩演讲全文)
AI for Science:第五范式
最近10年里,AI飞速发展,在很多任务上已经和人类媲美。而且近年来,以GPT-3、DALLE2为代表的大模型让人惊艳。
比如大家现在非常关注的ChatGPT,让我们觉得通用人工智能离日常生活越来越近。但这些成果主要集中在感知和认知层面,并没有反映出人类智能里最光辉的一面,即认识世界和改造世界。
如果戴上科学的显微镜,就会发现我们之所以成为人类、成为生物,是亿万个细胞、甚至是更多微观粒子相互作用的结果;而如果戴上科学的望远镜,就会发现我们人类不过是地球上百万物种之一、而地球在苍茫宇宙里也同样是不值一提的沧海一粟。
所以,无论是从微观还是宏观角度看,我们人类自身都是非常渺小的。我们不应该让AI一味地模拟语音、视觉、语言等人类自身的基本技能,而是要让AI拥有和人类一样认识世界和改造世界的勇气和能力。而认识世界和改造世界正是千百年来,自然科学研究的终极目标。
我在微软的前同事Jim Gray曾经写过一本书,对科学发现四个基本范式做了深刻的总结。
第一个范式叫做经验范式,基于经验的观察,是天才科学家对万物万象的总结。比如著名的天文学家开普勒,他通过观察总结出天体运行的规律:“所有的行星围绕太阳运行的轨道都是椭圆的,太阳处在所有椭圆的公共焦点上”。
第二个范式是理论范式,指数学家对经验进行数学抽象和推演,比如用于描述经典力学的牛顿运动方程,用来描述电场磁场关系的麦克斯韦尔方程等。
第三个范式是计算范式,随着计算机的发明,人们开始有能力求解复杂的物理方程。比如,通过有限元或者有限差分方式求解流体方程,从而有助于人类对于天气预报进行精准预测。
第四个范式是数据驱动的范式,这个过程中ML(机器学习)扮演着非常重要的角色,人们使用ML方法来分析数据,寻找规律,并进行预测。
最近这几年,大家开始关注的一种新的范式,叫做AI for Science,它是前四种范式的有机结合,发挥了经验和理论各自的特长,又把AI和计算科学融合在一起。AI for Science是对科学发现更全面的认知,因此我们称之为科学发现的第五范式。
为了更好地理解AI for Science,我们可以从如图的公式讲起。
第一、对于物理世界(绿色的X),我们可以利用理论科学对它进行大体的描述,并且可以用AI的手段来加速这些理论方程的求解和推演。这对应了黄色的X(θ)表示的部分,可以看成AI版本的第三范式。
第二、我们需要承认,我们在科学方面的知识仍然非常有限,已有的理论还不能完美解释所有的科学现象。换句话说,我们承认物理方程的解X(θ)和实际物理世界X之间存在残差ε,这个残差表达的是现有物理方程的边界,可以用实验手段观察,也可以为AI所利用,这就对应了第四范式。当然,这几年AI领域的新发展,比如RL(强化学习)、DL(深度学习)、大模型等等,会为第四范式提供新的加持。
第三、通过AI手段从数据出发,目的不仅仅是为了发掘一些特定的结果,也可以进一步帮助我们修正对已有物理方程的理解,丰富我们的科学知识,让我们有机会发现新的科学规律,这样就最终能够实现科学研究的闭环,这对应了AI版本的第一范式和第二范式。
接下来,我们就针对这三个方面进行更加深入的讨论,并介绍我们团队最新的研究成果。
形成科学发现的闭环
第一,如何用AI求解物理方程?
传统数值解法求解物理方程的效率是一个瓶颈。近年来,人们开始利用AI模型来对物理方程进行更加高效的求解。AI模型的训练数据可以来源于传统的数值解法,而一旦训练成功,在求解新的方程的时候就可以节省大量的时间。
此外,近年来还出现了一种physics informed training,甚至不需要提前生成训练数据,只需要在训练的过程中,动态验证AI模型的输出是否满足物理方程,定义损失函数即可,而验证方程比求解方程简单得多。
在这个方向上,我们团队有一些最新研究成果,如发表在NeurIPS 2021上的Graphormer模型,和发表在国际期刊《流体物理》上的Deep Vortex Net,分别在分子建模和气象模拟领域取得了国际领先的结果。
第二,如何用AI从科学数据中发掘有效信息?
各种实验设备每年都产生海量数据,但显然不能靠人工有效处理;还有每年都有近150万篇论文发表,但任何科学家都没有精力读完。
我和团队提出利用AI方法来自动分析高能粒子对撞的射流数据,在国际期刊《High-energy Physics》上提出了LorentzNet模型,将洛伦兹等变性构建在模型之中,在新粒子发现领域取得了比前人显著提高的精度。
我们还利用科学文献训练了SPT模型,对科学文献信息的科学知识进行抽取、总结、和预测。该模型近期在PubMed问答任务上首次达到了人类专家的水准。
第三,如何从实验数据出发,用AI发现新的物理方程,形成科学发现的闭环。
比如物理的守恒定律,一旦实验数据不满足守恒性,往往暗示着一些新物理规律的存在。我们团队设计了一个双通道的AI模型,包含一个基于拉格朗日神经网络的守恒通路和一个基于标准神经网络的非守恒通路,可精准地从实验数据中自发地学到很多已有规律。该工作发表在Physical Review上,受到了广泛关注。
我们相信AI for Science将会对自然科学产生巨大影响,尤其在解释生命奥秘以及保障环境可持续发展方面,都有很大的潜力。
沿着这两个方面,我们进行了很多探索,发表了一系列非常有意思的论文,如果大家感兴趣可以参考一下。
为了更好地推动AI for Science这个领域高速发展,今年7月,微软研究院在全球成立了一个新的研究机构,我们称之为Microsoft Research AI4Science或者是微软研究院科学智能中心。这个研究中心设立的目的就是利用AI对分子动力学模拟、流体力学模拟等重要的科学计算工具来进行颠覆式创新,从而推动人类关心的重大问题的求解。
非常荣幸,我作为这个中心的创始成员之一,带着团队一起推动AI for Science的研究。我们也真诚地希望怀揣着科