大模型变天，Transformer架构要被取代？-51CTO.COM

近日，由麻省理工学院孵化的AI初创企业Liquid AI正式推出其三款全新的“液态基础模型”(Liquid Foundation Model，LFM)，分别为专为资源受限环境设计的LFM 1.3B、面向边缘部署的LFM 3B，以及部署在云服务器上以处理复杂用例的LFM 40B MoE。

事实上，LFM 1.3B在多个基准测试中表现出色，性能超越过同等规模Llama3.2等基于Transformer架构的模型，LFM 3B可以与更大规模的模型进行竞争，展示了出色的可扩展性和灵活性，LFM 40B能够在保持性能与效率平衡的同时，超越规模更大的模型。

据Liquid AI介绍，LFM兼顾性能和效率。简单来说，就是可以在使用最少的系统内存的同时提供卓越的计算能力。

据了解，LFM基于动态系统、数值线性代数和信号处理，非常适合处理各种类型的序列数据，包括文本、音频、图像、视频和信号。实际上，Liquid AI首次引起关注是在去年12月份，当时该公司筹集了3760万美元的种子轮融资，由多家风险投资公司和知名天使投资人参与，估值达到3.03亿美元。

Liquid AI解释称，LFM基于一种液态神经网络(Liquid Neural Net，LNN)，从第一性原理出发而构建，其计算单元植根于动态系统理论、信号处理和数值线性代数，最初在麻省理工学院的计算机科学与人工智能实验室开发。

相较于传统深度学习模型需要数千个神经元来执行计算任务不同，LNN可以用更少的神经元实现相同的效果。LNN通过将这些神经元与创新的数学公式相结合来实现这一目标，使其能够用更少的资源做更多的事情。

值得一提的是，LNN在涉及连续顺序数据的用例中表现出色，具体来看：

第一，时间序列数据处理与预测。研究人员在对时间序列数据进行建模时面临着一些挑战，包括时间依赖性、非平稳性和时间序列数据中的噪声。

LNN是专门为时间序列数据处理和预测而构建的。根据麻省理工学院计算机科学和人工智能实验室(CSAIL)博士后哈萨尼(Hasani)的说法，时间序列数据无处不在，是帮助我们了解世界的重要参考。“现实世界完全由序列组成。即使是我们的感知，也是如此——你不是在感知图像，你是在感知一系列图像。”

第二，图像和视频处理。LNN可以执行图像处理和基于视觉的任务，如目标跟踪、图像分割和识别。它们的动态特性使它们能够根据环境的复杂性、模式和时间动态不断改进。

例如，麻省理工学院的研究人员发现，无人机可以通过一个20,000参数的小型LNN模型进行引导，该模型在导航以前看不见的环境方面比其他神经网络表现更好。这些出色的导航能力可用于制造更精确的自动驾驶汽车。

第三，自然语言理解。由于其适应性、实时学习能力和动态拓扑结构，LNN非常擅长理解自然语言文本序列。

以情感分析为例，这是一项旨在理解文本背后潜在情感的自然语言处理(NLP)任务。LNN从实时数据中学习的能力有助于他们分析不断发展的方言和新短语，从而进行更准确的情感分析。类似的功能在机器翻译中也很有用。

不过，需要指出的是，尽管LNN具有许多优势，但同样面临一些约束和挑战。

第一，消失梯度问题。像其他时间连续模型一样，LNN在通过梯度下降训练时可能会遇到消失梯度问题。在深度神经网络中，当用于更新神经网络权重的梯度变得极小时，就会发生消失梯度问题。这个问题会阻碍神经网络达到最优权重，从而限制了它们有效学习长期依赖关系的能力。

第二，参数调优。和其他神经网络一样，LNN也涉及参数调优的挑战。对于LNN而言，参数调优既耗时又成本高昂。LNN有多个参数，包括常微分方程(ODE)求解器的选择、正则化参数以及网络架构，这些都必须进行调整以实现最佳性能。

找到合适的参数设置通常需要迭代过程，这需要时间。如果参数调整效率低下或不正确完成，可能导致网络响应不佳和性能降低。

第三，文献资料匮乏。关于LNN的实施、应用和优势的文献资料有限。研究不足使得理解LNN的最大潜力和局限性变得具有挑战性，所以不如Transformer那样广为人知。

相信随着更多关于LNN的研究和开发工作的进行，未来会有新的方法和技术出现，以克服当前所面临的一些局限性，并进一步提高这类模型的可用性。

总的来说，Liquid AI推出的LFM代表了AI领域的一种创新尝试，它结合了动态系统理论和信号处理技术，旨在为边缘计算和云计算环境提供高效的解决方案。然而，要让这种新模型成为主流，还需要克服一系列的技术障碍，并通过持续研究和发展来完善其理论基础和实践应用。