2266年,一艘火星军事飞船上的船员,被派往一个在银河系新发现的行星执行外交任务。
这位远道而来的地球居民很快发现,一些当地生物会产生对地球生命有毒的化合物,由于那里并没有真正的实验室,从地球寻求帮助又需要极长的时间,所以这位船员和当地的科学家们收集了现场数据,并通过天线将数据传输到太阳系中最先进的超级计算设施。这些大型计算机能够运行一系列计算机模拟,从而帮助理解外星化学物质,找到威胁人类生命的新疾病的治疗方法。
这个虚构的故事来自于James S.A. Corey的科幻小说《苍穹浩瀚》(也被改编为同名美剧),这里所构想的能够代替传统实验室的计算实验,其实并不是未来,而是现在。
计算正变得无处不在。随着计算能力的提高,计算结合传统实验的方法,已经渗透到现代科学研究的诸多领域当中,我们可以看到诸如计算生物学、计算化学、计算材料学等“计算+”学科的兴起,基于计算的科研成果也越来越多地发表在这些领域的顶刊上,呈指数级增长。
抽象地概括,计算+实验的方法就是通过计算机去模拟、理解和预测特定系统的各种状态和动力学行为,再用实验方法对结果进行检验的新一代研究范式。在其中,“计算”作为与“实验”相并列的强大研究工具,它通常包含几个重要的技术环节,比如构建计算模型、使用仿真技术来模拟系统的动态过程、利用并行处理和高性能计算来加速计算任务的执行等等。
在这样的研究模式下,计算机虚拟环境在很多研究环节中代替了人工实验室,研究人员使用计算机的程序语言和数理化逻辑,构建并模拟出物理世界中的各种系统。比如说,随着密度泛函理论的提出、更快的计算机和并行计算架构的发展以及算法的优化,生物化学领域的科学家已经能够通过第一性原理计算准确地模拟包含上百个原子的分子体系。这样的研究方法不仅节省成本和时间,还可以在理论上预测和优化系统的行为。
那么,“计算+实验”是如何演变,逐渐走上主流研究范式的舞台的呢?让我们先回到计算之前的时代。
传统的科学研发模式,依赖的主要是人工试错实验,实验的设计依靠研究人员的个体经验和主观直觉,要获得目标物质的性质或是发现一种新物质,需要通过大量反复的试验,规律性差,成功的几率很低,整个过程消耗的人力物力财力巨大。所以说天才是百分之一的灵感加上百分之九十九的汗水,并非虚言。
这里有一个试错法的经典故事:查尔斯·固特异(Charles Goodyear)如何发明硫化橡胶(即制造橡胶)方法的故事。19世纪30年代的一天,固特异发现当时的橡胶很容易受热变软变粘,遇低温又会变脆变硬,于是自此致力于改善橡胶性能。他开始了日复一日的实验,方法是把身边所有的东西都一一混合到干橡胶中,比如盐、辣椒、糖、沙子、蓖麻油等等,他坚信,只要把世上所有东西都试验一遍,迟早会发现成功的组合。终于在1839年1月,固特异发现混合天然橡胶和硫磺粉并加热后,能够将橡胶转化为遇热不粘、遇冷不硬的高弹性材料。于是,橡胶硫化技术就此问世。
硫化橡胶的发明过程可谓漫长而艰难,充满了徒劳和失败,而这样的例子还有很多,原因就在于传统实验过程有着各种难以克服的困难。
首先是实验条件上的限制。实验具有说服力,但实验也需要条件,有些极端环境能够帮助观察物质的性质变化和探索新物质,比如超高压、超重力、强电场,对材料无限的减薄等等,但在现实中难以执行或是执行起来对资源和成本要求极高,这就限制了科学探索空间,降低了新物质研发的可能性。
其次,实验也面临着研究精度和实验环境可控性的挑战。在实验中,某些元素或化合物的分布会受到多种物理和化学因素的影响,如离子强度、PH值等。而且,实验的大量中间过程细节也不够透明,如果存在未知变量给人造成混淆,就会影响实验结果的准确性和可靠性,也难以做事后追溯。比方说,要创制某种化学品,实验过程中可能就会产生计划外的副产物,有污染环境的潜在危害。
以上这些局限性单靠研究人员的才华和智慧是难以突破的,必须系统性地寻求研究方法论层面的迭代。
相比古老的“神农尝百草”或“炼丹”式的完全偶然性发现,近代工业革命兴起后,以一定的科学认知来指导实验已经是一大飞跃,比如发电机、电灯、电话、汽车、照相机等的发明都是试错法的产物,但随着我们研究的对象系统越来越复杂,需要处理和分析的数据越来越多,科研人员急需更先进的研究手段。
比如,由于人们对材料性能的要求逐渐提高,材料学研究对象的空间尺度不断缩小至纳米乃至原子、电子尺度,理解材料与应用环境之间的相互作用以及环境对材料性能的影响也变得更重要,仅仅依靠实验室级别的实验已经不能满足现代新材料研究和发展的需求。
再如生命科学领域,要研究细胞的生命现象,就需要深入到更微观的层次去观察分子的行为,而这是传统实验手段难以做到的。为了应对只增不减的现代疾病,药物研发的需求也越来越多,而据《Nature》2017年的一篇论文研究,理论上可能成药的化合物数量是10的60次方,这个量级甚至超过了地球上物质的原子总数量,如果使用传统的筛选,能找到的数量大概只有10的11次方。而且易开发的“低垂果实”逐渐摘尽,许多复杂疾病治疗的分子机制日趋复杂,新药研发需要在基因和蛋白质上做更深层次的研究,创新研发方法迫在眉睫。
所以,当计算机出现后,人们对计算加速基础自然科学研究产生了莫大的信心。比如从上世纪末开始,以IBM为首的一些计算机技术公司就开始大胆设想,利用超级计算机预测蛋白质的三维结构,将试验从试管转移到计算机上,一个拥有 100 个氨基酸的蛋白质,可以有大约10的94次方种不同结构,远超整个宇宙中基本粒子的数量,计算机能够在无数次运算当中代替人工去完成筛除工作。
计算驱动的方法应用在科学研究中成了必然趋势。几十年来,计算能力得到指数级的提升,由计算驱动的研发模式逐渐走到聚光灯下。这一新范式有着显而易见的优势,前置的计算机模拟过程能够指导实验设计、预测实验、解释实验机理,并更新理论,计算与理论、实验三足鼎立,科学研究从经验试错、依赖专家直觉,走向了理性设计、数据驱动决策。
人的直觉,最终通过计算实验中的系统推导和预测得到精准的科学验证:在计算模拟中,可以精准可控地设置环境参数、触发事件,从而模拟各种系统;也能更容易地实现各种极限条件,或是在微观尺度上评估系统的不同性能;实验还可在不同条件下大量重复,有助于发现新规律。研发实验的各个环节更加精准化,成功率也就显著得到提升。
此外,采用计算与实验相结合的研发手段能够大大加速研究进程,模拟计算可以对研发目标的海量候选对象进行快速筛选和定位。同时减少实际物理试验的重复次数,降低成本投入,避免了人力物力资源的浪费。
目前,在生物、化学、材料等许多领域,已经普遍依靠“计算+实验”的范式做研发,比如分子动力学模拟(Molecular Dynamics Similation,MD模拟),就是这种范式下的一个典型的计算研究方法。
分子动力学是一种计算机模拟手段,通过模拟体系内原子和分子随时间演化而发生的运动轨迹,来研究体系的微观和宏观性质,是研究分子体系的重要手段,在生命科学、材料学等领域的研究中都发挥着重要作用。比方说,研究人员可以使用MD模拟来捕捉生物大分子(蛋白质等)行为的原子细节,模拟药物与靶标分子的相互作用,预测化合物的生物活性和药物性能,通过高效的虚拟筛选能够大大降低药物发现的成本,加速候选药物的定位。而这个过程对计算的需求之大,是传统研发模式无法满足的,这也推动了后来大名鼎鼎的专用于MD模拟的安腾(Anton)超级计算机的问世。
计算正在而且也将在未来持续变革科学发现模式。伴随着计算能力的不断升级,“计算+实验”驱动的研发模式将引领科学家探索更多未知的疆域,而且步伐会走得更快、方向会找得更准。