Scaling Law被证伪，谷歌研究人员实锤研究力挺小模型更高效，不局限于特定采样技术！

51CTO技术栈

发布于 2024-4-7 13:49

浏览

0收藏

出品 | 51CTO技术栈（微信号：blog51cto）

“模型越大，效果越好”，Scaling Law再次被OpenAI带火了，但谷歌的研究人员的最新研究证伪了这一观点。

在周一发表的一项研究中，谷歌研究院和约翰霍普金斯大学的研究人员对人工智能 (AI) 模型在图像生成任务中的效率有了新的认识。这些发现挑战了“越大越好”的普遍信念，可能对开发更高效的人工智能系统产生重大影响。

1.模型大小与性能之间的较量

这项研究由研究人员Kangfu Mei 和Zhengzhong Tu 来主导，重点关注潜在扩散模型（LDM）的缩放特性及其采样效率。LDM 是一种人工智能模型，用于根据文本描述生成高质量图像。

为了研究模型大小和性能之间的关系，研究人员训练了一套 12 个文本到图像 LDM，其参数数量从 3900 万到惊人的 50 亿不等。然后，这些模型在各种任务上进行了评估，包括文本到图像的生成、超分辨率和主题驱动的合成。

论文中写到，“虽然改进的网络架构和推理算法已被证明可以有效提高扩散模型的采样效率，但模型大小（采样效率的关键决定因素）的作用尚未得到彻底检验。“

Scaling Law被证伪，谷歌研究人员实锤研究力挺小模型更高效，不局限于特定采样技术！ -AI.x社区图片

令人惊讶的是，研究表明，在给定的推理预算下（相同的采样成本）运行时，较小的模型可以胜过较大的模型。换句话说，当计算资源有限时，更紧凑的模型可能比较大、资源密集的模型能够生成更高质量的图像。这为在模型规模上加速LDMs提供了一个有前景的方向。

Scaling Law被证伪，谷歌研究人员实锤研究力挺小模型更高效，不局限于特定采样技术！ -AI.x社区图片

论文还进一步表明，采样效率在多个维度上是一致的。研究人员有一个重要发现，较小模型的采样效率在各种扩散采样器（随机和确定性）中都是保持一致，甚至在蒸馏模型（原始模型的压缩版本）中也是如此。这表明较小模型的优势并不限于特定的采样技术或模型压缩方法。

研究者认为，这种对缩放采样效率的分析将对指导LDMs的未来发展起到关键作用，特别是在广泛的实际应用中平衡模型规模与性能和效率方面。

Scaling Law被证伪，谷歌研究人员实锤研究力挺小模型更高效，不局限于特定采样技术！ -AI.x社区图片

然而，该研究还指出，当计算约束放松时，较大的模型仍然擅长生成细粒度的细节。这表明虽然较小的模型可能更有效，但在某些情况下仍然需要使用较大的模型。

2.写在最后

这项研究的影响是深远的，因为它为开发更高效的图像生成人工智能系统开辟了新的可能性。通过了解 LDM 的扩展特性以及模型大小和性能之间的权衡，研究人员和开发人员可以创建在效率和质量之间取得平衡的 AI 模型。

这些发现符合人工智能社区的最新趋势，即 LLaMa 和 Falcon 等小型语言模型在各种任务中的表现都优于大型语言模型。推动构建开源、更小、更高效的模型的目的是使人工智能领域民主化，让开发人员能够构建自己的人工智能系统，这些系统可以在单个设备上运行，而不需要大量的计算资源。

不得不说，在 GenAI 领域，有那么一点“大行不顾细谨，大礼不辞小让”的感觉。

参考链接：https://arxiv.org/pdf/2404.01367.pdf

标签

谷歌

技术

模型

已于2024-4-7 14:44:40修改

相关推荐

GPT超越扩散、视觉生成Scaling Law时刻！北大&字节提出VAR范式

轻薄滴假象 • 2205浏览 • 0回复
大模型一定就比小模型好？谷歌的这项研究说不一定

轻薄滴假象 • 2337浏览 • 0回复
从80个模型中构建Scaling Law：华人博士生新作，思维链提出者力荐

轻薄滴假象 • 2148浏览 • 0回复
用 LLMs 做数据标注：优势、局限与实操指南

Baihai_IDP • 4253浏览 • 0回复
生成速度提升50倍，Scaling Law 再创奇迹：两步采样就出图，实时视频时代或将开启！

51CTO技术栈 • 1639浏览 • 0回复
大模型数学能力翻车实锤！Apple新研究暴露真相!

NLP前沿1 • 1682浏览 • 0回复
谷歌AI推出LAuReL：让神经网络更高效的革命性架构

Halo咯咯 • 2606浏览 • 0回复
大模型界「摩尔定律」Densing Law 来了！盲目Scaling将过时！

51CTO技术栈 • 1736浏览 • 0回复
NeurIPS 2024 ｜ REBASE，比MCTS更高效的Inference Scaling算法

arnoldzhw • 2313浏览 • 0回复
一项新研究揭示关键原因 | 从优势到局限：大型语言模型的潜力与边界

sbf_2000 • 1684浏览 • 0回复
微软研究人员发布 AIOpsLab：面向 AIOps 代理的开源综合人工智能框架

Halo咯咯 • 1556浏览 • 0回复
看了这么多文章，终于理解了 Scaling Law

芝士AI吃鱼 • 4478浏览 • 0回复
神秘“Seed Edge”项目被曝光，已设置5大研究方向，探索下一代AI技术，算力不用愁！

51CTO技术栈 • 1626浏览 • 0回复
NeurIPS 2024 ｜ REBASE，比MCTS更高效的Inference Scaling算法

arnoldzhw • 1625浏览 • 0回复
DeepSeek-R1-Zero激发了推理Scaling Law

ceesoft • 1644浏览 • 0回复
大模型面经：目前不同阶段的scaling law之间的区别和联系是什么？

shizhi02 • 1936浏览 • 0回复
DeepSeek爆火后的新Scaling Law究竟是什么？

51CTO技术栈 • 1266浏览 • 0回复
Deep Research深度研究AI代理：谁是最强研究助手？

Halo咯咯 • 2047浏览 • 0回复
实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent

玄姐聊AGI • 5579浏览 • 0回复

xuxiangda

LV.5

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

帖子

817

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

Scaling Law被证伪，谷歌研究人员实锤研究力挺小模型更高效，不局限于特定采样技术！

1.模型大小与性能之间的较量

2.写在最后

目录