随着2024年的结束,我们可以回顾并认识到,AI已经取得了令人瞩目且开创性的进展。按照当前的发展速度,几乎无法预测2025年AI将带来怎样的惊喜,但有几个趋势为企业描绘了一幅来年可期以及如何充分准备的动人画卷。
推理成本骤降
过去一年,前沿模型的成本稳步下降。过去两年内,OpenAI表现最佳的大型语言模型(LLM)每百万token的价格已经降低了200多倍。
推理成本下降的一个关键因素是竞争日益激烈。对于许多企业应用而言,大多数前沿模型都适用,因此很容易从一种模型切换到另一种,从而将竞争转向定价。此外,加速器芯片和专用推理硬件的改进也使得AI实验室能够以更低的成本提供其模型。
为了利用这一趋势,企业应当开始尝试最先进的LLM,并围绕其构建应用原型,即使当前成本较高。模型价格的持续下降意味着,许多此类应用将很快具备可扩展性。同时,模型的能力也在不断提升,这意味着在相同的预算下,企业能做的事情比过去一年要多得多。
大型推理模型的崛起
OpenAI o1的发布在LLM领域掀起了一股新的创新浪潮。让模型“思考”更长时间并审查其答案的趋势,使得它们能够解决以往单次推理调用无法解决的问题。尽管OpenAI尚未发布o1的详细信息,但其令人印象深刻的能力已经在AI领域引发了一场新的竞赛。如今,有许多开源模型复制了o1的推理能力,并将这一范式扩展到新领域,如回答开放式问题。
o1类模型(有时被称为大型推理模型,LRM)的进展对未来可能有两个重要影响。首先,鉴于LRM必须生成大量token来给出答案,我们可以预期硬件公司将更有动力开发具有更高token吞吐量的专用AI加速器。
其次,LRM有助于解决下一代语言模型的一个重要瓶颈:高质量训练数据。已有报道称,OpenAI正在使用o1为其下一代模型生成训练示例。我们还可以预期,LRM将有助于催生新一代小型专用模型,这些模型将针对特定任务使用合成数据进行训练。
为了利用这些发展,企业应当为实验前沿LRM的潜在应用分配时间和预算。他们应当不断测试前沿模型的极限,并思考如果下一代模型克服这些限制,将可能实现哪些类型的应用。结合推理成本的持续下降,LRM有望在来年解锁许多新的应用。
Transformer替代品蓄势待发
Transformer(LLM中使用的主要深度学习架构)的内存和计算瓶颈催生了一系列具有线性复杂度的替代模型。其中,状态空间模型(SSM)是最受欢迎的架构,过去一年取得了许多进展。其他有前景的模型还包括液体神经网络(LNN),它们使用新的数学方程,用少得多的人工神经元和计算周期完成更多任务。
过去一年,研究人员和AI实验室发布了纯SSM模型以及结合Transformer和线性模型优势的混合模型。尽管这些模型的性能尚未达到前沿的基于Transformer的模型水平,但它们正在迅速赶超,并且已经实现了数量级的更快速度和更高效率。如果该领域的进展持续下去,许多更简单的LLM应用可以卸载到这些模型上,并在边缘设备或本地服务器上运行,这样企业就可以使用定制数据,而无需将其发送给第三方。
扩展定律的变化
LLM的扩展定律在不断演变。2020年GPT-3的发布证明,扩展模型规模将继续带来令人印象深刻的结果,并使模型能够执行它们未经明确训练的任务。2022年,DeepMind发布了Chinchilla论文,为数据扩展定律设定了新的方向。Chinchilla证明,通过在比模型参数数量大数倍的海量数据集上训练模型,可以继续获得改进。这一发展使得较小的模型能够与拥有数百亿参数的前沿模型相竞争。
如今,人们担心这两种扩展定律都即将达到极限。报告显示,前沿实验室在训练更大模型方面的回报正在递减。同时,训练数据集已经增长到数十万亿token,获取高质量数据的难度和成本也越来越高。
与此同时,LRM正在开辟一个新的方向:推理时间扩展。在模型和数据集大小失效的地方,我们或许可以通过让模型运行更多推理周期并修正自己的错误来开拓新天地。
随着2025年的到来,AI领域继续以意想不到的方式发展,新的架构、推理能力和经济模型正在重塑可能性。对于愿意尝试和适应的企业而言,这些趋势不仅代表着技术进步,更是我们利用AI解决现实世界问题方式的根本转变。