神经符号回归：从数据中提取科学-神经符号模型

译者 | 李睿

审校 | 孙淑娟

宇宙是嘈杂而混乱的，复杂到让人们的预测变得困难。人类的智慧和直觉有助于对周围世界的一些活动有着基本的了解，并且足以从个人和小团体的有限视角在宏观空间和时间尺度上对各个事件有一些基本的理解。

人类史前和古代的自然哲学家大多局限于常识合理化和猜测检验。这些方法具有很大的局限性，特别是对于太大或太复杂的事情，因此导致迷信或魔法思维的盛行。

这并不是贬低猜测和检查(这是现代科学方法的基础)，而是要看到人类调查和理解能力的变化是由将物理现象提炼成数学表达式的愿望和工具所引发的。

这在牛顿和其他科学家领导启蒙运动之后尤其明显，尽管在古代也有分析还原论的痕迹。从观察到数学方程(以及这些方程做出的预测)的能力是科学探索和进步不可或缺的一部分。

深度学习从根本上讲也是关于学习与输入-输出观察相关的转换，就像人类科学家试图以数学表达式的形式学习输入和输出之间的函数关系一样。

当然，不同之处在于深度神经网络学习的输入-输出关系(通用逼近定理的结果)由一个不可解释的数值参数“黑盒”组成，主要是权重、偏差和它们连接的节点。

通用逼近定理指出，满足非常宽松标准的神经网络应该能够非常接近任何表现良好的函数。在实践中，神经网络是一个脆弱而有漏洞的抽象概念，它代表了由简单而精确的基础方程产生的输入输出关系。

除非特别注意训练模型(或模型集成)以预测不确定性，否则神经网络在其训练的分布之外进行预测时往往表现非常差。

深度学习预测在做出可证伪的预测方面也表现不佳，即开箱即用的构成科学方法基础的假设。因此，虽然深度学习是一种经过充分验证的工具，擅长拟合数据，但它在人类最重要的追求之一的实用性受到限制，这个追求就是通过科学方法探索人们周围的宇宙。

尽管深度学习在人类的科学努力中存在着各种的缺点，但不能忽视深度学习在科学学科中的巨大拟合能力和众多成功之处。

现代科学产生了大量的数据，个人(甚至是团队)无法观察这些数据的输出，也无法从嘈杂的数据直观地转换为清晰的数学方程。

为此，可以求助于符号回归，这是一种将数据简化为方程的自动化或半自动化方法。

当前的黄金标准：进化方法

在进入将现代深度学习应用于符号回归的一些令人兴奋的最新研究之前，必须首先了解将数据集转化为方程的进化方法的当前状态。最常提到的符号回归软件包是基于遗传算法的Eureqa。

Eureqa最初是作为康奈尔大学HodLipson团队的一个研究项目开发的，并作为Nutonian的专有软件提供，后来被DataRobot公司收购。Eureqa已经集成到Datarobot平台中，由Eureqa的合著者兼Datarobot Michael Schmidt公司的首席技术官负责。

Eureqa和类似的符号回归工具使用遗传算法同时优化方程组，以实现准确性和简单性。

TuringBot是一个基于模拟退火的替代符号回归包。模拟退火是一种优化算法，类似于用于改变金属物理性质的冶金退火。

在模拟退火中，选择优化问题的候选解决方案时会降低“温度”，其中较高的温度对应于接受较差的解决方案，并用于促进早期探索，从而能够搜索全局最优值，并提供能量来逃避局部最优值。

TuringBot是基于模拟退火的另一种符号回归包。模拟退火是一种优化算法，类似于用于改变金属物理性质的冶金退火。

TuringBot是一个免费版本，但在数据集大小和复杂性方面有很大的限制，并且代码不允许修改。

虽然商业符号回归软件(尤其是Eureqa)在开发符号回归的新工具时提供了重要的比较基准，但闭源程序的作用是有限的。

另一个名为PySR的开源替代方案在Apache 2.0许可下发布，由普林斯顿大学博士生Miles Cranmer领导，并分享了准确性和简约性(简单性)的优化目标，以及Eureqa和TuringBot使用的组合方法。

除了提供用于执行符号回归的免费且可自由修改的软件库之外，PySR从软件的角度来看也很有趣：它是用Python编写的，但使用Julia编程语言作为快速后端。

虽然遗传算法通常被认为是符号回归的当前最先进技术，但在过去几年中，新的符号回归策略出现了令人兴奋的爆炸式增长。

其中许多新的发展利用了现代深度学习模型，或者作为多步骤过程中的函数近似组件，或者以基于大型Transformer模型的端到端方式，最初是为自然语言处理开发的，以及介于两者之间的任何内容。

除了基于深度学习的新符号回归工具之外，概率和统计方法也在复苏，尤其是贝叶斯统计方法。

结合现代计算能力，新一代符号回归软件不仅本身是一项有趣的研究，而且为包括大数据集和综合实验在内的科学学科提供了真正的实用性和贡献。

以深度神经网络作为函数逼近器的符号回归

由于Cybenko和Hornik在上世纪80年代末/90年代初描述和研究的通用逼近定理，可以预期具有至少一个非线性激活隐藏层的神经网络能够逼近任何表现良好的数学函数。

在实践中，倾向于在更复杂的问题上使用更深层次的神经网络获得更好的性能。然而，原则上，需要一个隐藏层来逼近各种函数。

受物理学启发的AI Feynman算法将通用逼近定理作为一个更复杂难题的一部分。

AI Feynman(及其继任者AI Feynman 2.0)是由物理学家Silviu-Marian Udrescu和Max Tegmark(以及一些同事)开发的。AI Feynman利用了许多物理方程中的函数特性，例如平滑度、对称性和组合性以及其他一些特性。

神经网络作为函数逼近器发挥作用，学习数据集中表示的输入-输出变换对，并通过在相同的函数变换下生成合成数据来促进对这些特性的研究。

AI Feynman用来解决问题的函数特性在物理学方程中很常见，但并不能任意应用于所有可能的数学函数的空间。但是，它们仍然是在与现实世界相对应的各种函数中寻找的合理假设。

与前面描述的遗传算法和模拟退火方法一样，AI Feynman从头开始拟合每个新数据集。不涉及泛化或预训练，深度神经网络仅构成一个更大的、物理信息丰富的系统中精心编排的一部分。

AI Feynman符号回归在破译Feynman物理学讲座中的100个方程(或谜团)方面表现出色，但缺乏泛化意味着每个新数据集(对应于一个新方程)都需要大量的计算预算。

用于符号回归的一组新的深度学习策略利用了非常成功的Transformer模型系列，最初由Vaswani等人作为自然语言模型引入。这些新方法并不完美，但使用预训练可以在推理时节省大量计算时间。

基于自然语言模型的第一代符号回归

鉴于基于注意力的超大型Transformer模型在计算机视觉、音频、强化学习、推荐系统和许多其他领域(除了基于文本的自然语言处理的原始角色)的各种任务上取得了巨大成功，因此Transformer模型最终也将应用于符号回归也就不足为奇了。

虽然数字输入-输出对到符号序列的领域需要一些仔细的工程，但数学表达式基于序列的性质自然适用于Transformer方法。

至关重要的是，使用Transformer生成数学表达式使他们能够利用对数百万个自动生成的方程的结构和数值含义进行预训练。

这也为通过扩大规模来改进模型奠定了基础。缩放是深度学习的主要优势之一，其中更大的模型和更多的数据继续提高模型性能，远远超出过拟合的经典统计学习限制。

缩放是Biggio等人在主题为“可缩放的神经符号回归”的论文中提及的主要优势，其名称为NSRTS。NSRTS Transformer模型使用专用编码器将每个输入输出对数据集转换为一个潜在空间。编码的潜在空间具有固定大小，而与编码器的输入大小无关。

NSRTS解码器构建一个令牌序列来表示一个方程，其条件是编码的潜在空间和到目前为止生成的符号。至关重要的是，解码器仅输出数字常量的占位符，但在其他方面使用与预训练方程数据集相同的词汇表。

NSRTS使用PyTorch和PyTorch Lightning，并拥有许可的开放源码MIT许可证。

在生成无常数方程(称为方程骨架)之后，NSRTS使用梯度下降来优化常数。这种方法在序列生成之上分层了一个通用优化算法，由Valipour等人同时开发的所谓的“SymbolicGPT”共享。

Valipour等人没有像NSRTS方法中那样使用基于注意力的编码器。而是使用基于斯坦福点云模型PointNet的模型来生成一个固定维特征集，供Transformer解码器用于生成方程。与NSRT一样，Symbolic GPT使用BFGS来查找Transformer解码器生成的方程骨架的数值常数。

基于自然语言模型的第二代符号回归

虽然最近的一些文章描述了使用自然语言处理(NLP)Transformer来实现符号回归的泛化和可扩展性，但上述模型并不是真正的端到端，因为它们不估计数值常数。

这可能是一个严重的缺陷：想象一个模型可以生成具有1000个不同频率的正弦基的方程。使用BFGS优化每个项的系数可能会非常适合大多数输入数据集，但实际上，它只是执行傅里叶分析的一种缓慢而迂回的方式。

就在2022年春季，第二代基于Transformer的符号回归模型已在ArXiv上由Vastl等人在SymFormer上发布，而另一个端到端Transformer由Kamienny及其同事发布。

这些和以前基于Transformer的符号回归模型之间的重要区别在于它们预测数字常数以及符号数学序列。

SymFormer利用双头Transformer解码器来完成端到端的符号回归。一个头产生数学符号，第二个头学习数值回归任务，即估计方程中出现的数值常数。

Kamienny和Vastl的端到端模型在细节上有所不同，例如数值估计的精度，但两组的解决方案仍然依赖于后续的优化步骤进行细化。

即便如此，根据作者的说法，它们比以前的方法具有更快的推理时间，并产生更准确的结果，产生更好的方程骨架，并为优化步骤提供了良好的起点和估计常数。

象征性回归的时代来临

在大多数情况下，符号回归一直是一种精巧且计算密集型的机器学习方法，在过去十年的时间里，它得到的关注远远低于一般的深度学习。

这在一定程度上是由于遗传或概率方法的“即用即失”方法，对于每个新数据集，它们必须从头开始，这一特征与深度学习到符号回归的中间应用(如AI Feynman)是相同的。

在符号回归中使用Transformer作为整体组件，使得最近的模型能够利用大规模的预训练，从而减少推理时的能量、时间和计算硬件需求。

这一趋势得到了进一步的扩展，新的模型可以估计数值常数和预测数学符号，从而实现更快的推理和更高的准确性。

生成符号表达式的任务反过来可以用来生成可测试的假设，这是一项非常人性化的任务，并且是科学的核心。在过去的二十年中，符号回归的自动化方法继续取得令人感兴趣的技术进步，但真正的考验是它们是否对从事真正科学的研究人员有用。

符号回归开始在技术演示之外产生越来越多的可发表的科学结果。贝叶斯符号回归方法产生了一个新的预测细胞分裂的数学模型。

另一个研究小组使用稀疏回归模型生成了海洋湍流的合理方程，为改进多尺度气候模型铺平了道路。

一个将图神经网络和符号回归与Eureqa的遗传算法相结合的项目概括了描述多体引力的表达式，并从传统的模拟器中推导出了一个描述暗物质分布的新方程。

符号回归算法的未来发展

符号回归正在成为科学家工具箱中的一个强大工具。基于Transformer方法的泛化、可扩展性仍然是热门话题，还没有渗透到一般的科学实践中。随着越来越多的研究人员适应和改进模型，它有望进一步推动科学发现。

这些项目中有许多是在开放源码许可下进行的，因此可以预期它们将在几年内产生影响，而且它们的应用可能比Eureqa和TuringBot等专有软件更广泛。

符号回归是对深度学习模型输出的一种自然补充，深度学习模型的输出往往神秘且难以解释，而数学语言中更易于理解的输出可以帮助产生新的可验证假设，并推动直观的飞跃。

这些特征和最新一代符号回归算法的直接能力有望为获得重大发现的时刻提供更多的机会。