仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了
本文作者熊伟是伊利诺伊香槟分校的在读博士生,其导师为TongZhang与NanJiang。他的主要研究方向是RLHF与机器学习理论。基于人类反馈的强化学习(RLHF)使得大语言模型的输出能够更加符合人类的目标、期望与需求,是提升许多闭源语言模型ChatGPT,Claude,Gemini表现的核心方法之一。在此之前,传统的开源解决方案是基于离线数据集的直接偏好优化(DPO),并获得了一系列的明显超出SFT的开源模型。然而,在过去的几个月中,许多研究表...