鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响原创

发布于 2024-11-5 13:15

浏览

0收藏

在LLM的训练时，由于显存不足以支撑起大batch训练，通常大家都会采用一种策略：梯度累计（gradient accumulate）。这种方法允许模型在多个batch的梯度回传累计并求均值之后，再更新一次权重。这样做相当于模拟了一个更大的批量大小，而实际上并没有一次性处理那么多数据。这样做的好处是，它可以减少内存的使用，因为不需要一次性加载所有数据到GPU上，同时也可以享受等价大batch带来的训练的稳定性和模型的泛化能力。

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响-AI.x社区

但是近期大家发现了一个bug：对于几乎所有使用了梯度累积策略的库，包括Huggingface的一系列库，都暗藏了一个bug，这个bug尤其在LLM的后训练阶段影响显著：使用梯度累计并不一定等价于大batch训练，会有非常明显的精度损失！

https://github.com/huggingface/trl/issues/2175

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响-AI.x社区

如同上述issue描述的情况，图中bs表示batch size即梯度大小, gas表示 gradient accumulate step即多少次梯度回传累计后再更新一次模型权重。

对于LLM训练而言，不像图像任务有batch norm的影响，理论上，梯度累计在应等同于全批量训练，但实际发现loss并不匹配。研究者通过公式和实验证明，罪魁祸首是开源库中使用基于平均交叉熵loss求和后进行梯度累计的实现导致了bug，这在输出等长的训练任务中并不影响（这也是为什么在CV任务和LLM预训练阶段，梯度累计没有发生明显性能损失，因为输出通常是等长的）。 梯度累积后，过度重视短输出序列的loss，而忽略长输出序列的loss。

这个bug的数学推导也非常简单：

我们首先注意到交叉熵损失的计算方法如下：

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响-AI.x社区

请注意，分母计算了未填充或未忽略（赋值为-100）的token的数量。首先，我们把它们设置为整个文档的平均长度，以简化我们的计算。

假设两个batch的平均序列长度不等长，一个是m1，1个是m2，对于full batch情况：

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响-AI.x社区

对于梯度累计情况：

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响-AI.x社区

明显看出在m1和m2不相等时，两者是明显不等价的。尤其是在其中一个序列长度明显更长，另一个序列长度很短时，问题更加严重：比如m1=10，m2=1000时，会发现l2的loss大小会被压缩，而l1的loss大小相对于full batch情况下会被严重放大。

这是因为不同batch的文本长度不同，导致的问题。在梯度累积中，我们需要将每个小批量梯度累积器按梯度累积步骤的数量进行缩放，以便我们得到期望的结果。

修复分母问题后重新实验：

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响-AI.x社区

现在确实等价了，所有的训练损失曲线都匹配上了！分母就是罪魁祸首！这意味着简单地对每个梯度累积步骤进行平均是错误的，相反，我们必须事先推导出分母。

目前，这个bug已经引起了广泛关注，不少开源库包括huggingface系列正在针对这个问题进行修复。如果近期遇到SFT效果不佳的问题，可以关注是否踩到了这个坑，短期不要使用梯度累计，或在修复后及时更新，使用新版梯度累计算法。

本文转载自公众号思源数据科学作者：思源Source

原文链接：https://mp.weixin.qq.com/s/Za62RV9BDrbuoMERzodCUA

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

赞

收藏

回复

举报

回复

相关推荐

今日arXiv最热大模型论文：超越LoRA，北京大学提出预训练模型非梯度优化法

pangguiyu • 2385浏览 • 0回复
大模型的训练与调优，SFT(监督微调)和RLHF(基于人类反馈的强化学习)到底是什么？

AI探索时代 • 6052浏览 • 0回复
大模型的训练与调优，SFT(监督微调)和RLHF(基于人类反馈的强化学习)到底是什么？

AI探索时代 • 6257浏览 • 0回复
多模态大模型中，多模态融合后怎样知道最终结果受哪种模态影响更大？

shizhi02 • 1389浏览 • 0回复
苹果发布高效双EMA梯度优化方法，适配Transformer、Mamba模型

Aceryt • 1288浏览 • 0回复
大模型技术全面解析，从大模型的概念，技术，应用和挑战多个方面介绍大模型

AI探索时代 • 1.2w浏览 • 0回复
7大顶尖AI修bug系统大PK，谁才是"代码医生"？ | 法语版BERT CamemBERT 2.0让AI更懂"法式幽默"

sbf_2000 • 1372浏览 • 0回复
AI赋能教育：人工智能在教育中的八大应用实例

风云2002_1 • 8689浏览 • 0回复
SFT loss计算的那些坑，完美避开！！！

丁师兄大模型 • 1910浏览 • 0回复
AMD AI芯片被曝软件有大量bug、无法开箱即用!难成英伟达平替！

51CTO技术栈 • 1449浏览 • 0回复
突发，美国开始拉黑国产大模型公司！智谱官方回应：手握全链路大模型核心技术，无实质影响！

51CTO技术栈 • 1352浏览 • 0回复
深度学习训练崩溃的真凶：梯度消失与梯度爆炸背后的秘密

人工智能训练营 • 1416浏览 • 0回复
2025年大模型与Transformer架构：技术前沿与未来趋势报告

欧米伽未来研究所 • 4931浏览 • 0回复
聊聊DeepSeek大模型对AI Agent的影响

王吉伟自频道 • 1220浏览 • 0回复
大模型面经：SFT和RL如何影响模型的泛化或记忆能力？

shizhi02 • 1308浏览 • 0回复
大模型 SFT 有监督微调教程

AI悠闲区 • 944浏览 • 0回复
大模型应用落地：三道鸿沟，九大陷阱

云原生AI百宝箱 • 626浏览 • 0回复
我们一起聊聊大模型 SFT 有监督微调教程

AI悠闲区 • 610浏览 • 0回复
别让大模型想太多了，过度思考会影响性能

Aceryt • 420浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

Jina CLIP v2：为多模态RAG设计的向量模型 2024-11-27 14:50:27发布
解密o1推理过程！DeepSeek-R1-Lite预览版上线 2024-11-27 14:48:58发布

热门推荐

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

90%的人都中招的低效陷阱！DeepSeek这招五分钟脑图法让你少熬10夜 1回复

算力租赁新趋势揭秘：如何高效利用云计算资源赋能未来 0回复

还拿不到Manus邀请码？试试这几款开箱即用的computer use智能体，附教程 0回复

上一篇：仅1.3B！Janus 统一多模态理解和生成

下一篇： Emu3: 统一多模态输入与生成

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载