大模型界「摩尔定律」Densing Law 来了!盲目Scaling将过时! 原创
整理 | 伊风
出品 | 51CTO技术栈(微信号:blog51cto)
Scaling Law会失效吗?
虽然 OpenAI CEO 奥特曼掷地有声地说“这里没有墙”。但是,OpenAI的最近的发布也没有那么炸了,尤其是 o1 Pro 比满血版在编程能力上仅高出一分,似乎更让人相信了“墙”的存在。
是时候跳出Scaling Law了!
清华NLP实验室刘知远教授团队,提出的Densing Law(密度定律),给了我们一个全新的视角!
图片
不同于Scaling Law,认为随着模型规模(如参数数量)、训练数据集大小等参数的增长,模型性能会按照一定的幂律进行可预测的提高。
大模型的密度定律的表达,与摩尔定律相似,重点讨论了能力如何随着时间而增强。
简而言之:大模型能力密度约100天翻一倍!
图片
什么是能力密度呢?
研究团队将其定义为模型的“有效参数量”与实际参数量的比值,是一种衡量 LLM(Large Language Model)训练质量的新指标。
举个论文中的例子:2024年2月1日发布的MiniCPM-1-2.4B,其性能可以与2023年9月27日发布的Mistral-7B相媲美甚至更优。换句话说,4个月后,只需要使用参数量为35%的LLM,即可获得大致相当的性能。
论文的第一作者说,用该定律推算,到明年年底,一个8B的小模型就可以实现GPT-4那么强悍的效果了。
图片
此外,研究团队发现,AI时代的三大核心引擎同样遵守密度定律,电力、算力与智力(AI),都有各自的倍增周期。其中,电池能量密度倍增时间为10年,芯片电路密度的倍增时间则为18个月。
在论文的主要发现部分,研究团队还发现了5个重要的推论,让我们展开讲讲:
1.模型的推理开销随时间呈指数级下降
根据密度定律(Densing Law),每三个月后,我们就可以用参数减半的模型,达到与以前相当的性能效果。
因此,在实现相同任务性能的情况下,推理成本正以指数速度下降。
团队发现,从2023年1月到现在,GPT-3.5级别模型的推理成本已降低了266.7倍。
图片
2.大模型能力密度呈加速增强趋势
团队比较了 ChatGPT 发布前后 LLM 密度的增长趋势,发现在这一节点后,LLM 密度的增长速度提高了 50%!
这个结论不意外——可以说这波AI热就是从ChatGPT发布掀起的。
无论我们怎么吐槽OpenAI的封闭生态,其对AI发展的巨大推动是不可磨灭的。
图片
3.模型小型化揭示端侧智能巨大潜力
摩尔定律(Moore, 1965)指出,相同面积的芯片上集成的电路数量呈指数增长,这意味着计算能力也在指数增长。
而此次提出的密度定律(Densing Law)表明,LLM 的密度每 3.3 个月翻一番。
结合这两个因素,团队提出:在价格相同的芯片上可运行的 LLM 有效参数规模的增长速度,超过了 LLM 密度和芯片计算能力的增长速度。
这种双重增长的模式,就好像在电梯上跑步,让AI在不远的未来能在手机等端侧上丝滑运行。
图片
4.无法通过模型压缩增强模型能力密度
剪枝和蒸馏没我们想象得那么有用!
在团队的研究中,通过比较模型与其压缩版本,发现广泛使用的剪枝和蒸馏方法通常会使压缩后的模型密度低于原始模型。
研究认为,应该继续寻找更高效的模型压缩算法,尤其应更加注重提升小模型的密度。
图片
5.密度倍增周期决定模型存在“有效期”
一个残酷的事实,大模型也有有效期。
每过数月,就会有更加“实惠”的新模型出现,这就意味着模型必须要在有限期之内,获得足够的盈利才能收支平衡。
研究团队以API盈利方式估算,需要2个月内达成17亿用户访问!
看了这个数字,我们更理解大模型为何如此烧钱。
图片
密度定律也提醒了AI圈,不要一味地追求Scaling。
更重要的是如何在模型性能与效率间取得平衡。
“盲目增加模型参数以追求性能提升可能会导致模型密度降低,从而引发不必要的能源消耗。例如,尽管 Llama-3.1-405B(Dubey 等,2024)在开源模型中实现了最先进的性能,但其所需的计算资源是其他模型的数百倍。”
因此,未来的议题应该从单纯的性能优化转向密度优化。大模型走出“应试”,不再执着于榜单上的数字,才能真正走入应用的旷野之中。
参考链接:
1.https://arxiv.org/abs/2412.04315
2.插图来源于研究课题组
本文转载自51CTO技术栈,作者:伊风