聊聊对强化微调(RFT)的理解及看法
在看了 OpenAI 的直播,精读了字节论文,以及和 知乎@真中合欢 激烈辩论后。我对 RFT ( Reinforcement Fine-Tuning ) 也有了一些自己的认知,这篇文章给大家分享一下我的理解。
首先给出我的结论:RFT 并不是新的技术范式,而是 PPO 技术范式下的新应用范式,RFT 相比于传统 PPO 的创新点是 rule-based reward_model。
叠甲声明:RFT 属于应用范式,RFT 依赖的是 rule-based reward_model ,这两个观点属于个人看法,如有不对,还望轻喷。至于 “dozens of data” 就能生效,是不是能间接说明 RFT 相较于 PPO 之外,有更多的细节,我目前没有从 OpenAI 纰漏的 demo 中观察出来。
RFT 是什么
从 OpenAI 展示的内容中,我们可以这么理解:RFT 就是针对给定 prompt,产生一些包含 cot 的 response ,再通过一个 verifier 来判断 response 是否正确,作为信号来指导模型进行参数更新。
抛开 cot 过程不谈,如果我们把这套流程的 verifier 换成 reward_model ,这个流程看上去是不是感到很熟悉?—— 那就是最传统的基于 PPO 的 RLHF。
好,目前为止,在我的认知中,RFT 和 RLHF 唯一的区别就是,它的 return (reward 信号) 是通过 verifier 算出来的,而不是一个 reward_model 计算出来的。verifier 本身则可以看成是一个 rule,比如 math 任务的答案是否正确,code 任务的代码是否能执行 …… 因此, RFT = PPO + rule_based reward_model
RFT 的价值
OpenAI 在介绍 RFT 的时候说了这样一句话:“RFT 旨在使开发者和机器学习工程师能够创建专门针对特定复杂、特定领域任务的专家模型”。这就是 RFT 的价值:只要能定制好一个任务的 verifier,那么 RFT 便可以在这个新的领域场景,以十分之一或更少的数据,轻松超过 SFT 的结果。当然,用 PPO 训练模型能带来的所有收益也都是 RFT 的优点,这里就不赘述了。
介绍中还提到,RFT 擅长解决法律、保险、医疗、金融和工程领域等任务,而这些任务通常有明确的“正确答案”。是因为 RFT 只适合答案固定的场景吗?不是,仅仅是因为答案固定的场景 verifier 非常容易制定。
Sam Altman 在直播中认为 RFT 是 2024 最牛的技术进展,能帮助大家搞定专业模型的训练。说的没错,RFT 在大模型应用方向确实是划时代的,因为它真的能帮 OpenAI 卖更多的定制化服务。LLM 从业者们也能从中些许受益,掌握了 RFT 技术后,以后老板再提出做一个新的应用模型,我们就不需要再枯燥的标注大量的 SFT 数据,而是花一点时间训个 verifier 即可。
字节的 ReFT
说完 OpenAI 的 RFT,我们再来聊聊字节的 ReFT。字节的 ReFT 可以看作是 OpenAI 的 RFT 在数学任务上的一个极简版实现方案(仅从 OpenAI 纰漏出来的细节,我没看出来二者有本质的区别,或许 dozens of data 这几个单词背后埋藏了更多的技术细节):
- SFT 得到一个较好的模型;
- 给定 prompt,do_sample 多次,生成一些带 cot 的 response;
- 答案正确,1 分;答案错误,0.1 分;提取不到答案(说明没有 follow 输出格式),0分;
- 根据 returns 更新模型。
如果我们现在再读 ReFT 论文,会觉着这篇论文并没有太多的闪光点,好像里面提到的方案自己也都能想到。我想说的是:ReFT 这篇论文,好就好在它是在 o1 之前发表的。因为 o1 的出现,“cot 的推理过程,MCTS 采样,PRM,ORM,rule-based reward_model” 等概念,已经在 LLM 圈深入人心了。大家顶着 o1 的知识背景,回头看今年上半年的创新工作,自然会觉着有些稚嫩。
ReFT 这篇论文固然伟大,但就像我前面说的,RFT 只是 PPO 技术范式下的一个新应用范式。它本身并不是一个全新的技术范式,所以我个人觉着谈不上说谁首创了这个技术范式。
RFT 会改变什么
对于字节这样的算力大厂,本来就有卖大模型服务的业务线,那么 RFT 既然能帮 OpenAI 卖服务,自然也能帮字节卖服务。所以大厂需要立刻跟进这项应用技术。
对于 LLM 的普通从业者,短期内则是无事发生,该训 SFT 还得训,该洗数据还得洗。但长远来看,我们的心态和学习方向需要发生变化,我们必须留意到,这已经是 OpenAI 今年第二次告诉大家说 PPO 真的很重要了,上一次是 o1。如果大家还是“两耳不闻强化事,一心只搞 dpo”,我只能说心态确实够顶。
写在最后
希望大家不要再感慨 SFT 没价值了,也别感慨 RFT 真牛啊,完全追不上 OpenAI 之类的话,感慨无用,如果对 RFT 感兴趣,请 git clone OpenRLHF 代码,然后 bash train_ppo.sh。
本文转载自 NLP工作站,作者: ybq