后向传播
LV.1
张发恩创作的人工智能技术文章
声望 37
关注 0
粉丝 0
私信
主帖 1
回帖
GRPO(GroupRelativePolicyOptimization)算法核心思想:想象一下,老师在教一个学生写作文。传统的强化学习方法(比如PPO)会给学生的每一句话打分,告诉他这句好,那句不好。但GRPO不这么做,它更像是一位“佛系”老师:不看过程,看结果:GRPO不会逐句指导学生,而是让学生一口气写完几篇不同的作文(一组作文)。几篇作文一起比较:然后,老师把这几篇作文放在一起比较,根据一个预先定好的规则(基于规则的奖励模型),评判...
3天前 389浏览 0点赞 0回复 0收藏
获得成就
已积累 126 人气
获得 0 个点赞
获得 0 次收藏