鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

账号设置退出

DeepSeek采用的GRPO算法数学原理及算法过程浅析

作者：余俊晖 2025-03-03 01:00:00

PPO：通过奖励和一个“评判者”模型（critic 模型）评估每个行为的“好坏”（价值），然后小步调整策略，确保改进稳定。GRPO：通过让模型自己生成一组结果（比如回答或行为），比较它们的相对质量（优势），然后优化策略。它的特点是不需要额外的“评判者”模型（critic 模型），直接用组内比较来改进。

先来简单看下PPO和GRPO的区别：

source@x

PPO：通过奖励和一个“评判者”模型（critic 模型）评估每个行为的“好坏”（价值），然后小步调整策略，确保改进稳定。
GRPO：通过让模型自己生成一组结果（比如回答或行为），比较它们的相对质量（优势），然后优化策略。它的特点是不需要额外的“评判者”模型（critic 模型），直接用组内比较来改进。

个人理解记录，供参考。

1. GRPO目标函数的数学原理

GRPO的目标函数如下：

这个函数看起来复杂，但我们可以将其拆解为几个关键部分，逐一分析其作用和意义。GRPO的目标函数由两大部分组成：策略梯度更新项和KL散度正则化项。我们分别分析它们的作用。

1.1 策略梯度更新项

策略梯度部分是目标函数的主要成分，形式为：

1.2 KL散度正则化项

2. GRPO算法的整体工作流程

source@X

GRPO是一种基于组奖励的策略优化算法，其工作流程可以分为以下几个步骤：

整个流程通过迭代优化实现：从输入问题到生成响应，再到奖励分配和优势计算，最后更新策略，形成一个闭环。

3. 为什么GRPO算法有效？

GRPO通过消除传统强化学习算法（如PPO）中需要的一个单独价值函数模型，显著提高了效率。这个模型通常需要额外的内存和计算资源，而GRPO的做法降低了这些需求，使其更适合处理大型语言模型。稳健的优势估计
GRPO采用基于群体的优势估计方法。它为每个提示生成多个响应，并使用群体的平均奖励作为基准。这种方法无需依赖另一个模型的预测，提供了一种更稳健的政策评估方式，有助于减少方差并确保学习稳定性。
GRPO直接将Kullback-Leibler（KL）散度纳入损失函数中。这有助于控制策略更新，防止策略与参考策略偏离过多，从而保持训练的稳定性。

4. 几个GRPO复现deepseek-R1-zero的流程代码repo

责任编辑：武晓燕来源：大模型自然语言处理

DeepSeek GRPO 算法

51CTO技术栈公众号

业务
速览

媒体

51CTO CIOAge HC3i

社区

51CTO博客鸿蒙开发者社区 AI.x社区

教育

51CTO学堂精培企业培训 CTO训练营