说起现如今训大模型的核心方法,RLHF是绕不开的话题。
RLHF,即基于人类反馈的强化学习,无论是ChatGPT还是开源的LLaMA都离不开它。
但其中的“H”却是一大瓶颈,因为收集高质量的人类反馈实在是太难了。
那能不能交给AI来做呢?的确有人就这么干了,但能否替代RLHF一直没有定论,直到Google进行了这项研究。
图片
在一篇新发布的arXiv论文中,Google将RLAIF训练出的模型在文本总结上的表现与RLHF做了比较。
RLAIF用AI来代替RLHF中的人类,完成生成反馈的工作,让大模型训练不再受制于人类的局限。
在训练后的人类评价中,人们对RLHF和RLAIF训练后的模型生成的答案倾向性几乎没有差别。
甚至在一些细节上,RLAIF的表现还要优于RLHF。
有AI工程师转发了这篇论文并评论说,到GPT-5的时候可能就不再需要人类数据标注员了。
图片
在介绍详细的评测结果之前,我们不妨先来看看RLAIF的工作流程。
用LLM生成反馈数据
其实RLAIF和RLHF差不多,就是把人换成了AI,从字面上也能看出来。
图片
所以重点自然而然地来到了生成反馈内容上。
研究人员首先让AI在两个答案中进行选择以获得反馈。
为了避免随机性问题,会进行多次选择,其间还会对选项的顺序进行交换。
其中还用到了思维链(CoT)的推理模式,以获取更好的回答。
此外,为了提高LLM的自我一致性,这一过程并非直接二选一,而是分别给两个答案打分,相加为1。
这套流程走下来的prompt和输出大概是酱婶儿的:
图片
举个例子:
图片
有了这些数据,就可以拿来训练奖励模型,进而预测出偏好分数了。
接着, 利用训练好的奖励模型,研究人员让目标模型进行强化学习。
与其他模型常用的PPO(Proximal Policy Optimization)算法不同,RLAIF采用的是更为简单有效的修改版A2C(Advantage Actor Critic)算法。
当然,也可以不训练奖励模型,直接用AI生成的标注数据进行强化学习。
实际上,团队得到的标注数据集比奖励模型规模更大也更好用,但考虑这样消耗的计算成本太高,还是选择了奖励模型。
到这里大模型的“课程”就已经学完了,不过要想“毕业”的话还得再经历一场“考试”才行。
“考试”一共包括下面的三项内容:
- AI Labeler Alignment:AI偏好相对于人类偏好的精确程度
- Pairwise Accuracy:训练好的奖励模型与人类偏好数据集的匹配程度
- Win Rate:人类在RLAIF和RLHF生成结果之间的倾向性
经过这样一番测试之后,强化学习终于大功告成。
那么,“AI教出来的学生”成绩究竟怎么样呢?
测试效果可以与RLHF媲美
研究团队找来了1200名人员,在对SFT(基线监督微调)、RLHF、RLAIF以及真人给出的答案从优质到劣质进行排序。
图片
以SFT方式作为基线,RLHF和RLAIF的Win Rate均超过了70%,也就是说人类对这两种方式的倾向程度是SFT的将近三倍。
虽然RLHF的表现略胜于RLAIF,但两者的差距并不明显。
而若以RLHF作为参照,RLAIF的Win Rate则是50%,说明人类对两者的倾向程度是一样的。
图片
有趣的是,两种RL训练出的模型给的结果都远远胜过了真人直接给出的答案。
RLAIF相对于真人的Win Rate高达79%,而RLHF是80%,即倾向性是真人答案的四倍。
此外,在对输出内容进行仔细评估之后,研究人员还发现RLAIF训练出的模型出现幻觉的概率比RLHF更低,逻辑和语法错误也更少。
One More Thing
不过对于RLAIF,也有网友发现了华点:
拿来生成反馈的模型不也是用RLHF训练出来的吗?
图片
而另一边,RLHF的过程当中,也不能排除有的人在用AI“偷懒”的可能。
图片
或许“你中有我,我中有你”才是两种方式测试结果这么接近的原因吗?