在大模型时代,谷歌 2017 年开创性论文《Attention Is All You Need》中提出的 Transformer 已经成为主流架构。
然而,刚刚一家由 MIT 计算机科学与人工智能实验室 (CSAIL) 前研究人员共同创立的初创公司 Liquid AI 却走出了不一样的路线。
Liquid AI 表示他们的目标是「探索构建超越生成式预训练 Transformer (GPT) 基础模型的方法」。
为了实现这一目标,Liquid AI 推出了其首批多模态 AI 模型:Liquid Foundation Models(LFM)。这是基于第一原理构建的新一代生成式 AI 模型,其 1B、3B 和 40B LFM 在各个规模上均能实现 SOTA 性能,同时保持更小的内存占用和更高效的推理。
Liquid AI 后训练主管 Maxime Labonne 在 X 上表示,LFM 是他职业生涯中最自豪的版本 ,LFM 的核心优势在于它们能够胜过基于 Transformer 的模型,同时占用更少的内存。
有人表示,LFM 是 Transformer 的终结者。
还有网友盛赞 LFM 是游戏规则的改变者。
更有网友认为「可能是时候放弃 Transformers 了,这种新架构看起来很有前途。」
Liquid AI 发布三款模型
LFM 系列拥有三种不同的尺寸和变体:
- 密集型 LFM 1.3B(最小),非常适合资源高度受限的环境。
- 密集型 LFM 3B,适合在边缘部署优化。
- LFM 40.3B MoE 模型(最大,类似于 Mistral 的专家混合模型),专为处理更复杂的任务而设计。
SOTA 性能
LFM-1B 与同等规模模型的比较。LFM-1B 在各项基准测试中均取得最高分,成为该规模下最先进的模型。这是非 GPT 架构首次显著优于基于 Transformer 的模型。举例来说,LFM 1.3B 在第三方基准测试中优于 Meta 的 Llama 3.2-1.2B 和微软的 Phi-1.5。
LFM-3B 实现了令人难以置信的性能,在与 3B transformer 模型、混合模型和 RNN 模型的比较中名列第一。在多个基准测试中也与 Phi-3.5-mini 相当,同时规模小了 18.4%。可以看出 LFM-3B 是移动和其他边缘文本应用的理想选择。
LFM-40B 在模型大小和输出质量之间实现了新的平衡。它在运行时可以激活 12B 参数,其性能媲美更大的模型,而 MoE 架构可实现更高的吞吐量,并可在更具成本效益的硬件上进行部署。
内存高效
与 Transformer 架构相比,LFM 占用的内存更少。对于长输入尤其如此,因为基于 Transformer 的 LLM 中的 KV 缓存会随着序列长度线性增长。通过高效压缩输入,LFM 可以在相同硬件上处理更长的序列。与其他 3B 类模型相比,LFM 占用的内存最少。举例来说,LFM-3B 仅需要 16 GB 内存,而 Meta 的 Llama-3.2-3B 则需要超过 48 GB 内存。
LFM 真正利用了上下文长度
下表比较了几种模型在不同上下文长度下的表现。
这种高效的上下文窗口首次在边缘设备上实现了长上下文任务。对于开发者来说,它解锁了新的应用,包括文档分析和摘要、与上下文感知聊天机器人进行更有意义的交互,以及改进的检索增强生成 (RAG) 性能。
这些模型不仅在原始性能基准方面具有竞争力,而且在运营效率方面也具有竞争力,使其成为各种用例的理想选择,从金融服务、生物技术和消费电子产品领域的企业级应用程序到边缘设备的部署。
用户可以通过 Lambda Chat 或 Perplexity AI 等访问。
Liquid 如何超越生成式预训练 Transformer (GPT)
Liquid 使用了一种混合的计算单元,这些计算单元深深植根于动态系统理论、信号处理和数值线性代数的理论中。结果就是开发出了通用的人工智能模型,这些模型能够用来模拟任何类型的序列数据,包括视频、音频、文本、时间序列和信号,以此来训练其新的 LFM。
早在去年,Liquid AI 就使用了一种名为 LNN(Liquid Neural Networks)的方法,与需要数千个神经元来执行复杂任务的传统深度学习模型不同,LNN 表明,更少的神经元(结合创新的数学公式)可以实现相同的结果。
Liquid AI 的新模型保留了这种适应性的核心优势,允许在推理过程中进行实时调整, 而不会带来传统模型相关的计算开销。可以高效处理多达 100 万个 token,同时将内存使用量降至最低。
例如,在推理内存占用方面,LFM-3B 模型的表现优于 Google 的 Gemma-2、Microsoft 的 Phi-3 和 Meta 的 Llama-3.2 等流行模型,尤其是在 token 长度扩展的情况下。
虽然其他模型在处理长上下文时内存使用量会急剧增加,但 LFM-3B 占用的空间却小得多,因此非常适合需要大量顺序数据处理的应用程序,例如文档分析或聊天机器人。
Liquid AI 已将其基础模型构建为跨多种数据模态(包括音频、视频和文本)的通用模型。
凭借这种多模态能力,Liquid 旨在解决从金融服务到生物技术和消费电子产品等各种行业特定挑战。
Liquid AI 正在为多家硬件制造商的产品优化其模型,包括 NVIDIA、AMD、Apple、Qualcomm 和 Cerebras。
Liquid AI 正在邀请早期用户和开发者测试他们的新模型并提供反馈。虽然目前模型还不完美,但公司计划利用这些反馈来改进产品。他们将于 2024 年 10 月 23 日在麻省理工学院举行正式发布会。
为了保持透明度和推动科学进步,公司计划在发布会前发表一系列技术博客文章。他们还鼓励用户进行红队测试,探索模型的极限,以帮助改进未来版本。
Liquid AI 推出的 LFM 结合了高性能和高效的内存使用,为传统的基于 Transformer 的模型提供了一个有力的替代选择。这使得 Liquid AI 有望成为基础模型领域的重要玩家。
Liquid AI :从一条小虫子开始
这家公开与 OpenAI 和其他大语言模型公司竞争的创业公司,由 MIT 计算机科学和人工智能实验室 CSAIL 孵化,成立于 2023 年 3 月。
2023 年 12 月,公司拿到种子轮融资 3750 万美元,估值达到 3 个亿。
投资人包括 GitHub 联合创始人 Tom Preston Werner、Shopify 联合创始人 Tobias Lütke 、 Red Hat 联合创始人 Bob Young,等。
MIT CSAIL 主任 Daniela Rus 是公司创始人之一,这位著名的机器人学家和计算机科学家也是该实验室的首位女性主管。
除了 Daniela Rus,Liquid AI 另三位联合创始人都曾是 MIT CSAIL 博士后研究人员。
联合创始人兼 CEO Ramin Hasani 在 MIT CSAIL 从事博士后研究之前,曾是美国最大的基金管理公司之一先锋集团( Vanguard )的首席人工智能科学家。
联合创始人兼 CTO Mathias Lechner 早在维也纳工业大学读书时,就和 Hasani 一起研究过线虫的神经结构。
联合创始人兼首席科学官 Alexander Amini 曾是 Daniela Rus 的博士生。
四位创始人(从左到右)CEO Ramin Hasani,Daniela Rus,首席科学官 Alexander Amini 和 CTO Mathias Lechner
2017 年,Daniela Rus 将 Hasani 和 Lechner 「挖到 」MIT CSAIL,Rus 和她的博士生 Amini 也加入到液态神经网络的研究中。
Daniela Rus 指出,生成式 AI 在安全、可解释性以及算力等方面存在明显局限性,很难被用于解决机器人问题,特别是移动机器人。
受科研界的「常客」秀丽隐杆线虫的神经结构启发,Daniela Rus 和她的实验室博士后人员研发出一种新型的灵活神经网络,也被成为液态神经网络。
秀丽隐杆线虫也是唯一完成连接组(connectome)测定的生物体(截至 2019 年)。虽然大脑简单,但在学习和适应环境方面也比当下任何人工智能系统都要好得多。
秀丽隐杆线虫体长仅 1 毫米、只有 302 个神经元、96 块肌肉,但却具备感知、逃逸、觅食、交配等复杂智能行为。
它是最简单的生命智能体,也是通过生物神经机理模拟实现通用人工智能的最小载体。
近几年来,科研人员也在利用线虫神经的研究成果进行计算机生物仿真。通过研究线虫大脑如何工作,Daniela Rus 等人设计出一种「液态时间常数网络」( Liquid Time-constant Networks):
一个连续时间模型,由多个简单的动态系统组成,这些系统通过非线性门相互调节。
如果说,标准的神经网络犹如一层层间隔均匀的水坝,每层水坝上安装了许多阀门(权重),计算的洪流每流经一层水坝,都要透过这些阀门,汇总后再奔向下一层。
那么,液态神经网络不需要水坝,因为,每个神经元都由微分方程 (ODE)控制。
这种网络的特点是时间常数可变,输出通过求解微分方程得到。研究表明,它在稳定性、表达能力和时间序列预测方面都优于传统模型。
后来,Daniela Rus 等人又提出一种近似方法,可以用闭式解来高效地模拟神经元和突触之间的相互作用( Closed-form continuous-time neural networks ),不仅大大提高了模型的计算速度,也显示出更好的可扩展性,在时间序列建模方面表现出色,优于许多先进的循环神经网络模型。
Liquid AI 团队成员曾声称,该架构适合分析任何随时间波动的现象,包括视频处理、自动驾驶、大脑和心脏监测、金融交易(股票报价)和天气预报等。
除了像液体一样的灵活性,与动辄数十亿参数规模的生成 AI 模型相比,液态神经网络的另一个特点是规模小得多。
例如,可在资源高度受限环境中部署的 LFM 1.3B,参数仅 1.3B(与 GPT-2 最大版本 1.5B 相近),同时保持了更小的内存占用和更高效的推理,可以在各种机器人硬件平台上运行。
另外,由于尺寸小、架构简单,液态神经网络也有可解释性方面的优势。
不过,全新架构将如何与 OpenAI 等竞争对手的主流模型相抗衡还有待观察。
Hasani 曾表示,目前 Liquid AI 没有计划为消费者开发像 ChatGPT 这样的应用程序。公司首先关注希望为金融和医学研究建模的企业客户。