
回复
这个工作目标是,找到一种简单的方法,可以实现test-time scalling。
关键点有2个,构建高质量的监督数据1k,用于监督微调;一个Budget Forcing的方法,用于限定模型的推理过程。
经过这么一折腾,模型的性能随着推理token数量变长而编号。
质量:去除格式错误或低质量的样本。
难度:根据模型性能和推理长度评估问题难度,去除模型能正确解答的问题。
多样性:使用 Claude 3.5 Sonnet 将问题分类到不同的领域,确保样本覆盖广泛的学科。
强制最大思考 token 数量:如果模型生成的思考 token 超过设定的上限,强制结束思考过程,并追加“Final Answer:”以提供当前最佳答案。
强制最小思考 token 数量:如果模型试图结束思考过程,抑制思考结束 token 的生成,并在当前推理轨迹后追加“Wait”,鼓励模型继续思考。
消融实验:
数据量、多样性和难度:通过随机选择、仅选择最长推理轨迹或仅最大化多样性来构建数据集,测试结果表明这些方法的性能均低于结合质量、难度和多样性的方法。
测试时扩展方法:比较了Budget Forcing、条件长度控制和拒绝采样等方法,发现Budget Forcing在控制性和性能上表现最佳。
最后,整个过程证明了通过简单的测试时扩展方法,使用少量数据即可实现强大的推理性能。s1-32B 模型在多个基准测试中表现出色,超越了闭源模型如 OpenAI 的 o1-preview。
本文转载自NLP前沿,作者: 猕猴桃