聊聊对强化微调(RFT)的理解及看法
社区头条 在看了OpenAI的直播,精读了字节论文,以及和知乎真中合欢激烈辩论后。我对RFT(ReinforcementFineTuning)也有了一些自己的认知,这篇文章给大家分享一下我的理解。首先给出我的结论:RFT并不是新的技术范式,而是PPO技术范式下的新应用范式,RFT相比于传统PPO的创新点是rulebasedrewardmodel。叠甲声明:RFT属于应用范式,RFT依赖的是rulebasedrewardmodel,这两个观点属于个人看法,如有不对,还望轻喷。至于“dozensofdata”...