大模型界「摩尔定律」Densing Law 来了！盲目Scaling将过时！原创

51CTO技术栈

发布于 2024-12-9 17:19

浏览

0收藏

整理 | 伊风

出品 | 51CTO技术栈（微信号：blog51cto）

Scaling Law会失效吗？

虽然 OpenAI CEO 奥特曼掷地有声地说“这里没有墙”。但是，OpenAI的最近的发布也没有那么炸了，尤其是 o1 Pro 比满血版在编程能力上仅高出一分，似乎更让人相信了“墙”的存在。

是时候跳出Scaling Law了！

清华NLP实验室刘知远教授团队，提出的Densing Law（密度定律），给了我们一个全新的视角！

大模型界「摩尔定律」Densing Law 来了！盲目Scaling将过时！-AI.x社区图片

不同于Scaling Law，认为随着模型规模（如参数数量）、训练数据集大小等参数的增长，模型性能会按照一定的幂律进行可预测的提高。

大模型的密度定律的表达，与摩尔定律相似，重点讨论了能力如何随着时间而增强。

简而言之：大模型能力密度约100天翻一倍！

大模型界「摩尔定律」Densing Law 来了！盲目Scaling将过时！-AI.x社区图片

什么是能力密度呢？

研究团队将其定义为模型的“有效参数量”与实际参数量的比值，是一种衡量 LLM（Large Language Model）训练质量的新指标。

举个论文中的例子：2024年2月1日发布的MiniCPM-1-2.4B，其性能可以与2023年9月27日发布的Mistral-7B相媲美甚至更优。换句话说，4个月后，只需要使用参数量为35%的LLM，即可获得大致相当的性能。

论文的第一作者说，用该定律推算，到明年年底，一个8B的小模型就可以实现GPT-4那么强悍的效果了。

大模型界「摩尔定律」Densing Law 来了！盲目Scaling将过时！-AI.x社区图片

此外，研究团队发现，AI时代的三大核心引擎同样遵守密度定律，电力、算力与智力（AI），都有各自的倍增周期。其中，电池能量密度倍增时间为10年，芯片电路密度的倍增时间则为18个月。

在论文的主要发现部分，研究团队还发现了5个重要的推论，让我们展开讲讲：

1.模型的推理开销随时间呈指数级下降

根据密度定律（Densing Law），每三个月后，我们就可以用参数减半的模型，达到与以前相当的性能效果。

因此，在实现相同任务性能的情况下，推理成本正以指数速度下降。

团队发现，从2023年1月到现在，GPT-3.5级别模型的推理成本已降低了266.7倍。

大模型界「摩尔定律」Densing Law 来了！盲目Scaling将过时！-AI.x社区图片

2.大模型能力密度呈加速增强趋势

团队比较了 ChatGPT 发布前后 LLM 密度的增长趋势，发现在这一节点后，LLM 密度的增长速度提高了 50%！

这个结论不意外——可以说这波AI热就是从ChatGPT发布掀起的。

无论我们怎么吐槽OpenAI的封闭生态，其对AI发展的巨大推动是不可磨灭的。

大模型界「摩尔定律」Densing Law 来了！盲目Scaling将过时！-AI.x社区图片

3.模型小型化揭示端侧智能巨大潜力

摩尔定律（Moore, 1965）指出，相同面积的芯片上集成的电路数量呈指数增长，这意味着计算能力也在指数增长。

而此次提出的密度定律（Densing Law）表明，LLM 的密度每 3.3 个月翻一番。

结合这两个因素，团队提出：在价格相同的芯片上可运行的 LLM 有效参数规模的增长速度，超过了 LLM 密度和芯片计算能力的增长速度。

这种双重增长的模式，就好像在电梯上跑步，让AI在不远的未来能在手机等端侧上丝滑运行。

大模型界「摩尔定律」Densing Law 来了！盲目Scaling将过时！-AI.x社区图片

4.无法通过模型压缩增强模型能力密度

剪枝和蒸馏没我们想象得那么有用！

在团队的研究中，通过比较模型与其压缩版本，发现广泛使用的剪枝和蒸馏方法通常会使压缩后的模型密度低于原始模型。

研究认为，应该继续寻找更高效的模型压缩算法，尤其应更加注重提升小模型的密度。

大模型界「摩尔定律」Densing Law 来了！盲目Scaling将过时！-AI.x社区图片

5.密度倍增周期决定模型存在“有效期”

一个残酷的事实，大模型也有有效期。

每过数月，就会有更加“实惠”的新模型出现，这就意味着模型必须要在有限期之内，获得足够的盈利才能收支平衡。

研究团队以API盈利方式估算，需要2个月内达成17亿用户访问！

看了这个数字，我们更理解大模型为何如此烧钱。

大模型界「摩尔定律」Densing Law 来了！盲目Scaling将过时！-AI.x社区图片

密度定律也提醒了AI圈，不要一味地追求Scaling。

更重要的是如何在模型性能与效率间取得平衡。

“盲目增加模型参数以追求性能提升可能会导致模型密度降低，从而引发不必要的能源消耗。例如，尽管 Llama-3.1-405B（Dubey 等，2024）在开源模型中实现了最先进的性能，但其所需的计算资源是其他模型的数百倍。”

因此，未来的议题应该从单纯的性能优化转向密度优化。大模型走出“应试”，不再执着于榜单上的数字，才能真正走入应用的旷野之中。

参考链接：

1.https://arxiv.org/abs/2412.04315

2.插图来源于研究课题组

本文转载自51CTO技术栈，作者：伊风

标签

大模型

Scaling

已于2024-12-9 17:51:05修改

社区头条

相关推荐

Scaling Law被证伪，谷歌研究人员实锤研究力挺小模型更高效，不局限于特定采样技术！

51CTO技术栈 • 2192浏览 • 0回复
GPT超越扩散、视觉生成Scaling Law时刻！北大&字节提出VAR范式

轻薄滴假象 • 1487浏览 • 0回复
从80个模型中构建Scaling Law：华人博士生新作，思维链提出者力荐

轻薄滴假象 • 1533浏览 • 0回复
粉碎摩尔定律打造AI帝国，量产Blackwell解决ChatGPT全球耗电难题

duhorse • 1729浏览 • 0回复
不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

轻薄滴假象 • 1323浏览 • 0回复
Scaling Law触礁「数据墙」？Epoch AI发文预测LLM到2028年耗尽所有文本数据

duhorse • 1576浏览 • 0回复
深度解析LeCun：不要盲目研究LLM？

sword_hero • 1328浏览 • 0回复
撤出OpenAI后，苹果继续泼冷水：大模型不会推理。科技界炸锅：大模型只会检索拼凑答案

51CTO技术栈 • 1258浏览 • 0回复
生成速度提升50倍，Scaling Law 再创奇迹：两步采样就出图，实时视频时代或将开启！

51CTO技术栈 • 957浏览 • 0回复
新Scaling Law浮出水面！OpenAI内部员工爆料下一代模型Orion性能堪忧

51CTO技术栈 • 1046浏览 • 0回复
o3来了！AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天

51CTO技术栈 • 1897浏览 • 0回复
微软CEO开年演讲：预训练Scaling Law依然伟大！首个英伟达GB200集群已上线！

51CTO技术栈 • 688浏览 • 0回复
看了这么多文章，终于理解了 Scaling Law

芝士AI吃鱼 • 2490浏览 • 0回复
DeepSeek-R1-Zero激发了推理Scaling Law

ceesoft • 854浏览 • 0回复
苹果也在蒸馏大模型，给出了蒸馏Scaling Laws

轻薄滴假象 • 697浏览 • 0回复
微软发布创新大模型：一张图片就能生成游戏，游戏界ChatGPT来了

Aceryt • 567浏览 • 0回复
大模型面经：目前不同阶段的scaling law之间的区别和联系是什么？

shizhi02 • 907浏览 • 0回复
Mistral-Small-24B-Instruct-2501：小身材，大智慧，AI界的“轻量级拳王”来了！

Halo咯咯 • 377浏览 • 0回复
DeepSeek爆火后的新Scaling Law究竟是什么？

51CTO技术栈 • 295浏览 • 0回复

51CTO技术栈

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂