人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈
精华
RichardSutton在「TheBitterLesson」中做过这样的评价:「从70年的人工智能研究中可以得出的最重要教训是,那些利用计算的通用方法最终是最有效的,而且优势巨大。」自我博弈(selfplay)就是这样一种同时利用搜索和学习从而充分利用和扩大计算规模的方法。今年年初,加利福尼亚大学洛杉矶分校(UCLA)的顾全全教授团队提出了一种自我博弈微调方法(SelfPlayFineTuning,SPIN),可不使用额外微调数据,仅靠自我博弈就能大幅提升LL...