鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

大模型调参技巧—如何实现超参的跨模型尺度迁移原创

发布于 2025-3-17 13:07

浏览

0收藏

本篇介绍超参数（学习率）跨模型尺度的迁移规律。

众所周知，完整训练一次大型LLM的成本是昂贵的，这就决定了我们不可能像以前一样直接在大型LLM上反复测试超参数。

一个很自然的想法是希望可以在同结构的小模型上仔细搜索超参数，找到最优组合后直接迁移到大模型上。

尽管这个想法很朴素，但要实现它并不简单，它需要我们了解常见的超参数与模型尺度之间的缩放规律，本次介绍的文Maximal Update Parametrization，简称“muP”，正是这个想法的一个实践。具体出自论文《Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer》。

先说结论，muP主要研究超参数跨模型尺度的迁移规律。这里有几个关键词：

1、超参数，目前主要指学习率；

2、模型尺度，目前主要是模型宽度；

3、这里的核心是“迁移”。

请注意，muP并不研究什么是最优的超参数，只研究最优超参数随着模型尺度的变化规律，所以我们需要在某个小模型上搜索最优的超参数组合，然后迁移到大模型上，这就是muP的使用场景和使用方法。

推导muP的原理是让模型的前向传播、反向传播和损失增量都不随模型尺度的变化而发生明显变化：

1、具体做法是分析初始化的数量级，然后认为结论可以代表后续优化的规律；

2、说白了就是假设做好初始化，后面就会自动沿着正确的轨迹走

具体方法

论文提出了一种名为µTransfer的方法来解决大型神经网络的超参数（HP）调整问题。这个方法的核心思想是利用最大更新参数化（Maximal Update Parametrization，简称µP）的特性，该特性表明在模型大小变化时，许多最优的HP保持稳定。

大模型调参技巧—如何实现超参的跨模型尺度迁移-AI.x社区

具体来说，µTransfer的解决方案包括以下几个步骤：

1. 目标模型的µP参数化：首先，将目标大型模型（即最终希望调整的模型）按照µP进行参数化。这确保了模型在训练过程中，各层的更新幅度保持一致，从而在模型宽度增加时，HPs保持稳定。

2. 在小型代理模型上调整HP：然后，研究者在一个小版本的代理模型上进行HP调整。这个小型模型在宽度和/或深度上小于目标模型，但采用相同的µP参数化。

3. 零成本转移（Zero-Shot Transfer）：一旦在小型代理模型上找到了接近最优的HPs，这些HPs可以直接转移到全尺寸的目标模型上，而无需在目标模型上进行额外的调整。这种转移是基于µP理论，即在无限宽度极限下，模型的HPs趋于稳定。

4. 验证和测试：最后，研究者在目标模型上验证这些转移过来的HPs，并与直接在目标模型上进行调整的结果进行比较，以确保性能达到预期。

比较关键的改进点是Normalization和残差的影响，尤其是Normalization，它使得不依赖特殊的初始化就可以稳定前向传播，带来了更大的自由度和可能性。

具体示例

论文比较难理解，下面基于苏神的文举一个前向传播的例子，更详细的推理推荐直接去看苏神的文章。（可以点击后面原文链接直接跳转）

首先依然用RMS（Root Mean Square）来作为矩阵尺度的指标

大模型调参技巧—如何实现超参的跨模型尺度迁移-AI.x社区

那么muP就是想研究超参数关于d的变化规律。

考虑线性层表示为

大模型调参技巧—如何实现超参的跨模型尺度迁移-AI.x社区

其中

大模型调参技巧—如何实现超参的跨模型尺度迁移-AI.x社区

我们的目的是为了让迁移时稳定，即初始化阶段X的RMS跟Y的RMS大致相等，那么W的初始化

大模型调参技巧—如何实现超参的跨模型尺度迁移-AI.x社区

大模型调参技巧—如何实现超参的跨模型尺度迁移-AI.x社区

Kaiming初始化跟LeCun初始化相比，只是方差相差一个（跟模型尺度无关的）常数2，可以证明其他激活函数的结果也类似。因此可以得到结论

大模型调参技巧—如何实现超参的跨模型尺度迁移-AI.x社区

这也说明了“激活函数的影响是模型尺度无关的”。

这里直接给出最终所有优化器下的结论。

大模型调参技巧—如何实现超参的跨模型尺度迁移-AI.x社区

这里的W指的是除Win,Wout外的所有参数，还有要强调的是，这里的关系都是“正比于”而不是“等于”。

实验验证

论文在Transformer、ResNet、GPT等模型上均进行了实验，我们可以主要来看看GPT3上的实验。

这块作者在GPT-3的一个小型代理模型（约40M参数）上确定了超参数，然后将这些参数转移到完整的6.7B参数模型。实验结果显示，µTransfer模型的性能优于原始GPT-3模型，并且与两倍大的13B模型相当。

总结

基于muP可以在小模型上以相对较小的成本仔细搜索超参数（这里主要是学习率和初始化），然后迁移到大模型上，降低大模型的炼丹成本。当然µTransfer在实际应用中还有很多的潜在改进方向，比如如自动化代理模型选择、跨平台实现等。

文转载自公众号瓦力算法学研所，作者：喜欢瓦力的卷卷

原文链接：https://mp.weixin.qq.com/s/6OZBR1IKi8mW93jrXNjZlA

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

赞

收藏

回复

举报

回复

相关推荐

重编程大语言模型实现跨模态交互的时序预测 | ICLR 2024

轻薄滴假象 • 1646浏览 • 0回复
跨模型的Function_Calling来了

ermulong • 3161浏览 • 0回复
WWW'24 文本增强实现统一跨域时间序列预测

海因斯DK • 2924浏览 • 0回复
大模型应用落地：如何选择合适的 Embedding 模型？

玄姐聊AGI • 3335浏览 • 0回复
什么是超参数？大模型的超参数是做什么用的？超参数和大模型参数有什么关系？

AI探索时代 • 4359浏览 • 0回复
大模型微调技巧 | 高质量指令数据筛选方法-MoDS

NLP工作站 • 2456浏览 • 0回复
如何获取高质量数据进行代码指令调优？

NLP工作站 • 1456浏览 • 0回复
KVSharer：基于不相似性实现跨层 KV Cache 共享

amei2000go • 1572浏览 • 0回复
微调大型语言模型（LLM）的五个技巧

51CTO内容精选 • 1376浏览 • 0回复
大模型技术全面解析，从大模型的概念，技术，应用和挑战多个方面介绍大模型

AI探索时代 • 1.1w浏览 • 0回复
大模型面试实战！Prompt调优

ermulong • 1426浏览 • 0回复
一文教你如何永久使用Cursor技巧！

唐克 • 2.6w浏览 • 1回复
视觉自回归建模（VAR）：通过下一尺度预测实现可扩展的图像生成（NIPS2024best)

AIRoobt • 1930浏览 • 0回复
十个Cursor智能编程技巧，从小白到高手

小虎哦哦 • 3451浏览 • 0回复
大模型提示词，事实上就是一种聊天技巧

AI探索时代 • 852浏览 • 0回复
多尺度深度卷积神经网络的多尺度特征输出分析

步惊云_32 • 677浏览 • 0回复
DeepSeek 爆了，普通人如何3小时完全从0训练自己的大模型

玄姐聊AGI • 4305浏览 • 0回复
大语言模型：表面的推理能力背后是出色的规划技巧

51CTO内容精选 • 889浏览 • 0回复
DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路

大模型自然语言处理 • 538浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

FlexTok-一种图像编码新方式 2025-03-03 09:37:53发布
大模型面经：目前不同阶段的scaling law之间的区别和联系是什么？ 2025-02-27 12:50:47发布

热门推荐

AI 大模型：从产业阵痛到轻量高效的未来之路 1回复

综述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 开源关键技术 0回复

从推理到编程，详细比较DeepSeek 32B、70B、R1实践性能 0回复

算力租赁新趋势揭秘：如何高效利用云计算资源赋能未来 0回复

解锁Transformer核心！一文吃透自注意力机制 0回复

上一篇： FlexTok-一种图像编码新方式

社区精华内容

目录

具体方法
具体示例
实验验证
总结

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载