51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
WOT技术大会
IT证书
公众号矩阵
移动端
短视频
免费课程
课程排行
直播课
软考学堂
全部课程
厂商认证
IT技术
25年5月软考
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
后向传播
LV.1
张发恩创作的人工智能技术文章
帖子 1
声望 37
关注 0
粉丝 0
社区头条作者
私信
关注
主帖 1
回帖
应该可以秒懂 | 白话DeepSeek R1的GRPO强化学习算法:原理、图解、视频
社区头条
GRPO(GroupRelativePolicyOptimization)算法核心思想:想象一下,老师在教一个学生写作文。传统的强化学习方法(比如PPO)会给学生的每一句话打分,告诉他这句好,那句不好。但GRPO不这么做,它更像是一位“佛系”老师:不看过程,看结果:GRPO不会逐句指导学生,而是让学生一口气写完几篇不同的作文(一组作文)。几篇作文一起比较:然后,老师把这几篇作文放在一起比较,根据一个预先定好的规则(基于规则的奖励模型),评判...
3天前
389浏览
0点赞
0回复
0收藏
1
1
获得成就
已积累
126
人气
获得
0
个点赞
获得
0
次收藏
客服