应该可以秒懂 | 白话DeepSeek R1的GRPO强化学习算法:原理、图解、视频

发布于 2025-2-28 12:15
浏览
0收藏

GRPO (Group Relative Policy Optimization) 算法核心思想:

想象一下,老师在教一个学生写作文。传统的强化学习方法(比如PPO)会给学生的每一句话打分,告诉他这句好,那句不好。但 GRPO 不这么做,它更像是一位“佛系”老师:

  1. 不看过程,看结果:GRPO 不会逐句指导学生,而是让学生一口气写完几篇不同的作文(一组作文)。
  2. 几篇作文一起比较:然后,老师把这几篇作文放在一起比较,根据一个预先定好的规则(基于规则的奖励模型),评判哪篇作文整体上更好。
  3. 规则说话:这个规则可能很简单,比如看作文是否通顺、有没有错别字(对于数学题,就是看答案对不对;对于编程题,就是看代码能不能跑通)。
  4. 鼓励“好作文”, 抑制“差作文”:老师会告诉学生,你这次写的这几篇里,哪几篇相对好一些,以后多照着这个路子写。哪几篇差一些,以后别这么写了。至于具体怎么写出来的,老师不太关心。
  5. “稳定” 提升:每次提升都比较稳妥,不会让学生的写作水平突然变得很奇怪。尽量保持原有的答题能力,上一篇文章说的KL散度能帮忙“稳定”。​


关键点:

  • 基于规则的奖励模型:GRPO 的“打分”标准是事先定好的规则,而不是像 PPO 那样,需要训练一个专门的“打分模型”。
  • 奖励结果,不奖励过程:GRPO 看最终答案的好坏,不关心答案是怎么一步步推导出来的。这个可以避免Reward Hacking (感兴趣的可以去看看 前OpenAI算法科学家写的博客 https://lilianweng.github.io/posts/2024-11-28-reward-hacking/ )。
  • 组内相对优势:GRPO 关注的是一组答案之间的相对好坏,而不是每个答案的绝对分数。
  • 效率高,节省资源:  不用像PPO一样训练价值模型。

总的来说,GRPO 就像一个“结果导向”的老师,它用一套简单的规则来评价一组不同的结果,然后鼓励学生朝着相对好的方向去努力。


下面这张小抄图以非常容易理解的方式展示了GRPO算法。它是两个作者图的拼接,上半部分我找到了作者(credit to hesam@x),下半部来自这儿 https://huggingface.co/docs/trl/main/en/grpo_trainer , 没写作者, Anyway, credit to huggingface.)

应该可以秒懂 | 白话DeepSeek R1的GRPO强化学习算法:原理、图解、视频-AI.x社区

本文转载自​后向传播​,作者: 张发恩 ​​

收藏
回复
举报
回复
相关推荐