鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

重磅！Unsloth开源新算法：让GRPO训练大模型所需显存降低90%，告别显存焦虑！

发布于 2025-2-24 11:15

浏览

0收藏

重磅！Unsloth开源新算法：让GRPO训练大模型所需显存降低90%，告别显存焦虑！-AI.x社区图片

在大模型训练领域，显存一直是一个让研究者和开发者头疼的问题。特别是在进行长文本上下文训练时，动辄需要几百GB的显存需求，这让很多研究者望而却步。不过最近，AI基础设施优化团队Unsloth带来了一个重大突破 - 他们推出的新算法可以让GRPO训练所需显存减少高达90%！文章公布了Llama3.1(8B) GRPO在Colab上notebook，见：https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B)-GRPO.ipynb

1、从510GB到54GB：显存优化的突破性进展

在传统的GRPO训练方案中，要训练一个支持20K上下文长度的Llama 3.1（8B）模型，需要高达510.8GB的显存。这个量级的显存需求，即便是顶配的训练服务器也难以满足。而Unsloth团队通过其创新的算法优化，将这一需求降低到了惊人的54.3GB，这意味着：

训练内存成本：从414GB降至42GB

GRPO内存成本：从78.3GB降至9.8GB

推理内存开销：从16GB降至0GB

20K上下文的推理KV缓存：保持在2.5GB

重磅！Unsloth开源新算法：让GRPO训练大模型所需显存降低90%，告别显存焦虑！-AI.x社区图片

2、技术创新：三重优化方案

Unsloth团队采用了三个关键的技术创新来实现这一突破：

全新的线性算法：团队为GRPO开发了一个全新的内存高效线性算法，这个优化alone就减少了68.5GB的内存使用。更令人惊喜的是，通过torch.compile的协助，这个算法在性能上还实现了提速。

智能梯度检查点：通过将中间激活值异步卸载到系统RAM，在仅损失1%性能的情况下节省了惊人的372GB显存。这个优化特别适用于需要多次生成的场景。

共享内存空间：与其他实现不同，Unsloth可以与底层推理引擎(vLLM)共享GPU/CUDA内存空间，这又节省了16GB显存。

Unsloth团队从 Horace 的线性交叉熵实现中获得了灵感，并成功使其适用于 GRPO！实际上，我们发现了一些令人惊讶的点：

参考 GRPO 实现使用反向 KL 散度，而不是正向 KL 散度。

天真地实现浮点 16 混合精度（以及浮点 8）上的线性交叉熵，如果没有正确处理，将因自动混合精度缩放机制而崩溃。

我们发现 GRPO 损失函数实现中存在其他问题——主要是在反向 KL 散度的公式表达上。

Unsloth团队进行了 4 个实验：

通过参考实现（红线）进行常规 GRPO

移除断开代码（蓝色线条）

完整反向 KL，如前所述增加一个额外项（黄色线）

前向 KL 散度（绿色线）

重磅！Unsloth开源新算法：让GRPO训练大模型所需显存降低90%，告别显存焦虑！-AI.x社区图片

一般来说，移除 detach 确实会破坏所有训练，所以我们必须保留它——这很可能需要更多的调查。看起来其他所有实现似乎都很相似？我们可能需要运行模型更长时间以看到不同的效果。

在所有实现中，Unsloth团队还利用了 logsumexp 技巧

3、实践意义：让更多开发者参与AI训练

这项技术突破的意义远不止于数字的优化。它意味着：

降低硬件门槛：原本需要多卡集群才能完成的训练任务，现在用单卡就能搞定。比如Qwen2.5 (1.5B)的训练现在只需要5GB显存！
提升研究效率：研究人员可以更快速地进行实验验证，加快模型迭代速度。
扩大应用场景：更多的小团队和个人开发者现在也能尝试大模型训练，这将极大促进AI技术的普及和创新。

看完这篇文章，是不是对AI训练的未来更有信心了？如果你也对大模型训练感兴趣，不妨关注Unsloth团队的GitHub项目，开启你的AI训练之旅！

文章标题：Long-context GRPO 长上下文 GRPO

文章链接：https://unsloth.ai/blog/grpo

本文转载自 AI帝国，作者：无影寺

标签

赞

收藏

回复

举报

回复

相关推荐

英伟达开源新大模型：训练数据减少40倍，算力节省1.8倍

Aceryt • 2551浏览 • 0回复
大模型到底需要消耗多少GPU显存？公式和工具全都有

Syrupup • 1.1w浏览 • 1回复
大模型训练核心算法之——反向传播算法

AI探索时代 • 2970浏览 • 0回复
GPU和CPU如何混合训练？大模型训练的GPU联手CPU显存优化分析方法

angel • 3826浏览 • 0回复
打破视觉-语言预训练的瓶颈：新算法解决噪声和标注问题

AI论文解读 • 2602浏览 • 0回复
IBM重磅发布Granite 3.0秒杀同级别大模型|全球首个39语言多模态大模型开源，告别"英语霸权"

sbf_2000 • 1962浏览 • 0回复
训练大模型时，显存都哪去了？

鱼虫子 • 2552浏览 • 0回复
大模型压缩后可在24GB显存GPU上本地运行！！

老蛀虫 • 2266浏览 • 0回复
开源版o1！中国大模型让国外陷入疯狂，成本猛降90%

Aceryt • 2600浏览 • 0回复
Unsloth：仅需7GB显存就能训练自己的DeepSeek-R1！

PyTorch研习社 • 2698浏览 • 0回复
7G显存，训练自己的 DeepSeek-R1：GRPO 资源下降80%

鸿煊的学习笔记 • 2127浏览 • 0回复
大模型前缀缓存技术，有望将服务成本降低90%

51CTO内容精选 • 1755浏览 • 0回复
一文读懂 PPO 与 GRPO：LLM 训练的关键算法

鸿煊的学习笔记 • 4741浏览 • 0回复
从PPO到GRPO：算力减半的大模型推理能力训练革命

Baihai_IDP • 3214浏览 • 0回复
白话DeepSeek R1的GRPO强化学习算法：原理、图解、视频

后向传播 • 2259浏览 • 0回复
基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战

Baihai_IDP • 641浏览 • 0回复
TeapotLLM，让AI告别“胡言乱语”

Halo咯咯 • 985浏览 • 0回复
重磅开源 A2A 智能体交互新架构

玄姐聊AGI • 594浏览 • 0回复
一文读懂 DeepSeek-R1 的 “最强外挂” GRPO 算法

鸿煊的学习笔记 • 654浏览 • 0回复

LV.4

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

67

帖子

621

声望

4

粉丝

关注

最近发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇：重磅！4000+实验揭秘：如何在512个GPU上训练大语言模型？

下一篇：微软Phi-4-Mini技术报告：Phi-4-Mini如何以小博大

社区精华内容

目录

1、从510GB到54GB：显存优化的突破性进展
2、技术创新：三重优化方案
3、实践意义：让更多开发者参与AI训练

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载