AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

后向传播

LV.1

张发恩创作的人工智能技术文章

帖子 1

声望 37

关注 0

粉丝 0

社区头条作者

私信

关注

主帖 1

回帖

应该可以秒懂 | 白话DeepSeek R1的GRPO强化学习算法：原理、图解、视频

社区头条

GRPO(GroupRelativePolicyOptimization)算法核心思想：想象一下，老师在教一个学生写作文。传统的强化学习方法（比如PPO）会给学生的每一句话打分，告诉他这句好，那句不好。但GRPO不这么做，它更像是一位“佛系”老师：不看过程，看结果：GRPO不会逐句指导学生，而是让学生一口气写完几篇不同的作文（一组作文）。几篇作文一起比较：然后，老师把这几篇作文放在一起比较，根据一个预先定好的规则（基于规则的奖励模型），评判...

3天前 389浏览 0点赞 0回复 0收藏

获得成就

已积累 126 人气

获得 0 个点赞

获得 0 次收藏