
回复
OpenAI年终大戏第二场推出了强化微调RFT (Reinforcement Fine-Tuning),它可以让你用几十到几千个的训练数据,为特定的复杂任务构建专家模型,加强了模型如何处理类似问题的推理,微调后的o1-mini得分提高80%,反超o1正式版!
强化微调技术的一种实现方式:首先通过监督式微调(Supervised Fine-Tuning)对模型进行预热,然后利用在线强化学习,特别是PPO算法,进一步微调模型。这种方法能够自动采样多种推理路径,并从真实答案中自然派生出奖励信号。
SFT和ReFT在CoT替代方案存在时的比较
强化微调(RFT)的两个主要阶段:预热阶段和强化学习阶段。
GSM8K中的一个问题(x)、思维链(CoT)(e)和答案(y)的示例。SFT过程在训练数据上迭代多个周期。提出的ReFT从SFT预热并在同一数据上执行RL训练。
实验表明,RFT在GSM8K、MathQA和SVAMP等数据集上的性能显著优于SFT,并且可以通过多数投票和重新排名等策略进一步提升性能
ReFT和基线模型在所有数据集上微调后的价值准确度
SFT和ReFT在GSM8K数据集中第1、3和5周期的P-CoT响应对同一个问题的反应。绿色框架内的反应是正确的,而红色框架内的反应是错误的。
https://arxiv.org/pdf/2401.08967
Code: https://github.com/lqtrung1998/mwp_ReFT
本文转载自PaperAgent