KAN干翻MLP，开创神经网络新范式！一个数十年前数学定理，竟被MIT华人学者复活了-51CTO.COM

KAN的横空出世，彻底改变了神经网络研究范式！

神经网络是目前AI领域最强大的工具。当我们将其扩展到更大的数据集时，没有什么能够与之竞争。

圆周理论物理研究所研究员Sebastian Wetzel，对神经网络给予了高度的评价。

然而，万事万物并非「绝对存在」，神经网络一直有一个劣势。

其中一个基本组件——多层感知器（MLP），尽管立了大功，但这些建立在MLP之上的神经网络，却成为了「黑盒」。

因为，人们根本无法解释，其中运作的原理。

为此，AI界的研究人员们一直在想，是否存在不同类型的神经网络，能够以更透明的方式，同样输出可靠的结果？

是的，的确存在。

2024年4月，MIT、加州理工等机构研究人员联手提出，新一代神经网络架构——Kolmogorov-Arnold network（KAN）。

它的出现，解决了以上的「黑盒」问题。

论文地址：https://arxiv.org/pdf/2404.19756

比起MLP，KAN架构更加透明，而且几乎可以完成普通神经网络，在处理某类问题时的所有工作。

值得一提的是，它的诞生源于上个世纪中期一个数学思想。

数学家Andrey Kolmogorov和Vladimir Arnold

这个已经埋了30多年的数学原理，如今在DL时代被这位华人科学家和团队重新发现，再次发光发亮。

虽然，这项创新仅仅诞生了5个月的时间，但KAN已经在研究和编码社区，掀起了巨浪。

约翰霍普金斯大学计算机教授Alan Yuille赞扬道，KAN更易于解释，可以从数据中提取科学规则，因此在科学领域中有着极大的应用」。

让不可能，成为可能

典型的神经网络工作原理是这样的：

一层层人工神经元/节点，通过人工突触/边，进行连接。信息经过每一层，经过处理后再传输到下一层，直到最终将其输出。

对边进行加权，权重较大的边，比其他边有更大的影响。

在所谓的训练期间，这些权重会不断调整，最终使得神经网络输出越来越接近正确答案。

神经网络的一个常见的目标是，找到一种数学函数、曲线，以便最好地连接某些数据点。

它们越接近这个函数，预测的结果就越准确。

假设神经网络模拟了物理过程，理想情况下，输出函数将代表描述该物理过程的方程，相当于物理定律。

对于MLP来说，会有一个数学定理，告诉你神经网络能多接近最佳可能函数。

这个定理表明，MLP无法完美地表示这个函数。

不过，在恰当的情况下，KAN却可以做到。

KAN以一种不同于MLP的方式，进行函数拟合，将神经网络输出的点连接起来。

它不依赖于带有数值权重的边，而是使用函数。

同时，KAN的边函数是非线性和可学习的，这使得它们比MLP更灵活、敏感。

然而，在过去的35年里，KAN被认为在实际应用中，切不可行。

1989年，由MIT物理学家转计算机神经科学家Tomaso Poggio，共同撰写的一篇论文中明确指出：

KAN核心的数学思想，在学习神经网络的背景下是无关紧要的。

Poggio的一个担忧，可以追溯到KAN核心的数学概念。

论文地址：http://cbcl.mit.edu/people/poggio/journals/girosi-poggio-NeuralComputation-1989.pdf

1957年，数学家Andrey Kolmogorov和Vladimir Arnold在各自但相互补充的论文中证明——如果你有一个使用多个变量的单一数学函数，你可以把它转换成多个函数的组合，每个函数都有一个变量。

然而，这里有个一个重要的问题。

这个定理产生的单个变量函数，可能是「不平滑的」，意味着它们可能产生尖锐的边缘，就像V字的顶点。

这对于任何试图使用这个定理，重建多变量函数的神经网络来说，都是一个问题所在。

因为这些更简单的单变量部分，需要是平滑的，这样它们才能在训练过程中，学会正确地调增匹配目标值。

因此，KAN的前景一直以来黯淡无光。

MIT华人科学家，重新发现KAN

直到去年1月，MIT物理学研究生Ziming Liu，决定重新探讨这个话题。

他和导师Max Tegmark，一直致力于让神经网络在科学应用中，更加容易被人理解，能够让人们窥探到黑匣子的内部。

然而，这件事一直迟迟未取得进展。

可以说，在这种「走投无路」的情况下，Liu决定在KAN上孤勇一试。

导师却在这时，泼了一盆冷水，因为他对Poggio论文观点太过熟悉，并坚持认为这一努力会是一个死胡同。

不过，Ziming Liu却没有被吓到，他不想在没有先试一下的情况下，放弃这个想法。

随后，Tegmark也慢慢改变了自己的想法。

他们突然认识到，即使由该定理产生的单值函数，是不平滑的，但神经网络仍可以用平滑的函数逼近数值。

Liu似乎有一种直觉，认定了KAN便是那个拯救者。

因为自Poggio发表论文，已经过了35年，当下的软件和硬件取得了巨大的进步。

在2024年，就计算来讲，让许多事情成为可能。

大约肝了一周左右的时间，Liu深入研究了这一想法。在此期间，他开发了一些原型KAN系统，所有系统都有两层。

因为Kolmogorov-Arnold定理本质上为这种结构提供了蓝图。这一定理，明确地将多变量函数分解为，不同的内部函数和外部函数集。

这样的排列，使其本身就具备内层和外层神经元的两层架构。

但令Liu沮丧的是，所设计的原型KAN并没有在科学相关任务上，表现地更好。

导师Tegmark随后提出了一个关键的建议：为什么不尝试两层以上的KAN架构，或许能够处理更加复杂的任务？

一语点醒梦中人。

这个开创性的想法，便成为他们突破的关键点。

这个羽翼未丰的原型架构，为他们带来了希望。很快，他们便联系了MIT、加州理工、东北大学的同事，希望团队能有数学家，并计划让KAN分析的领域的专家。

实践证明，在4月份论文中，小组团证明了三层KAN，确实是可行的。

他们给出了一个示例，三层KAN可以准确地表示一个函数，而两层KAN却不能。

不过，研究团队并没有止步于此。自那以后，他们在多达六层的KAN上进行了实验，每一层，神经网络都能与更复杂的输出函数，实现对准。

论文合著作者之一 Yixuan Wang表示，「我们发现，本质上，可以随心所欲堆叠任意多的层」。

发现数学定理碾压DeepMind

更令人震惊的是，研究者在两个现实的世界问题中，对KAN完成了验证。

第一个，是数学一个分支中的「纽结理论」。

2021年，DeepMind团队曾宣布，他们已经搭建了一个MLP，再获得足够纽结的其他属性后，可以预测出给定纽结的特定拓扑属性。

三年后，全新的KAN再次实现了这一壮举。

而且，它更进一步地呈现了，预测的属性如何与其他属性相关联。

论文一作Liu说，「这是MLP根本做不到的」。

第二个问题是，设计凝聚态物理中的一种现象，称为Anderson局域化。

其目的是，预测特定相变将发生的边界，然后确定描述该过程的数学公式。同样，也只有KAN做到了在这一点。

Tegmark表示，「但与其他形式的神经网络相比，KAN的最大优势在于其可解释性，这也是KAN近期发展的主要动力」。

在以上的两个例子中，KAN不仅给出了答案，还提供了解释。

他还问道，可解释性意味着什么？

「如果你给我一些数据，我会给你一个可以写在T恤上的公式」。

终极方程式？

KAN这篇论文的出世，在整个AI圈引起了轰动。

AI大佬们纷纷给予了高度的评价，有人甚至直呼，机器学习的新纪元开始了！

目前，这篇论文在短短三个月的时间里，被引次数近100次。

很快，其他研究人员亲自入局，开始研究自己的KAN。

6月，清华大学等团队的研究人员发表了一篇论文称，他们的 Kolmogorov-Arnold-informed neural network（KINN），在求解偏微方程（PDE）方面，明显优于MLP。

对于研究人员来说，这可不是一件小事，因为PED在科学中的应用无处不在。

论文地址：https://arxiv.org/pdf/2406.11045

紧接着，7月，来自新加坡国立大学的研究人员们，对KAN和MLP架构做了一个全面的分析。

他们得出结论，在可解释性的相关任务中，KAN的表现优于MLP，同时，他们还发现MLP在计算机视觉和音频处理方面做的更好。

而且，这两个网络架构在NLP，以及其他ML任务上，性能大致相当。

这一结果在人意料之中，因为KAN团队的重点一直是——科学相关的任务，而且，在这些任务中，可解释性是首要的。

论文地址：https://arxiv.org/pdf/2407.16674

与此同时，为了让KAN更加实用、更容易使用。

8月，KAN原班人马团队再次迭代了架构，发表了一篇名为「KAN 2.0」新论文。

论文地址：https://arxiv.org/pdf/2408.10205

他们将其描述为，它更像是一本用户手册，而非一篇传统的论文。

论文合著者认为，KAN不仅仅是一种达到目的的手段，更是一种全新的科学研究方法。

长期以来，「应用驱动的科学」在机器学习领域占据主导地位，KAN的诞生促进了所谓的「好奇心驱动的科学」的发展。

比如，在观察天体运动时，应用驱动型研究人员，专注于预测它们的未来状态，而好奇心驱动型研究人员，则希望揭示运行背后的物理原理。

Liu希望，通过KAN，研究人员可以从中获得更多，而不仅仅是在其他令人生畏的计算问题上寻求帮助。

相反，他们可能会把重点放在，仅仅是为了理解，而获得理解之上。