只需50美元!最简单的推理扩展方案,效果媲美o1!

发布于 2025-2-7 14:07
浏览
0收藏

只需50美元!最简单的推理扩展方案,效果媲美o1!-AI.x社区

这个工作目标是,找到一种简单的方法,可以实现test-time scalling。

关键点有2个,构建高质量的监督数据1k,用于监督微调;一个Budget Forcing的方法,用于限定模型的推理过程。

经过这么一折腾,模型的性能随着推理token数量变长而编号。

只需50美元!最简单的推理扩展方案,效果媲美o1!-AI.x社区

  1. 如何构建高质量的1k数据
  • 初始收集:从 16 个不同的来源收集了 59,029 个问题,包括 NuminaMATH、AIME、OlympicArena、OmniMath、AGIEval 等。
  • 最终筛选:通过质量、难度和多样性三个标准,从 59K 个问题中筛选出 1,000 个样本。具体步骤包括:

质量:去除格式错误或低质量的样本。

难度:根据模型性能和推理长度评估问题难度,去除模型能正确解答的问题。

多样性:使用 Claude 3.5 Sonnet 将问题分类到不同的领域,确保样本覆盖广泛的学科。

  1. Budget Forcing (通过在测试时强制设定最大或最小思考 token 数量来控制模型的推理过程)

强制最大思考 token 数量:如果模型生成的思考 token 超过设定的上限,强制结束思考过程,并追加“Final Answer:”以提供当前最佳答案。

强制最小思考 token 数量:如果模型试图结束思考过程,抑制思考结束 token 的生成,并在当前推理轨迹后追加“Wait”,鼓励模型继续思考。

消融实验:

数据量、多样性和难度:通过随机选择、仅选择最长推理轨迹或仅最大化多样性来构建数据集,测试结果表明这些方法的性能均低于结合质量、难度和多样性的方法。

只需50美元!最简单的推理扩展方案,效果媲美o1!-AI.x社区

测试时扩展方法:比较了Budget Forcing、条件长度控制和拒绝采样等方法,发现Budget Forcing在控制性和性能上表现最佳。

只需50美元!最简单的推理扩展方案,效果媲美o1!-AI.x社区

最后,整个过程证明了通过简单的测试时扩展方法,使用少量数据即可实现强大的推理性能。s1-32B 模型在多个基准测试中表现出色,超越了闭源模型如 OpenAI 的 o1-preview。

本文转载自​NLP前沿​,作者: 猕猴桃 

已于2025-2-7 15:40:45修改
收藏
回复
举报
回复
相关推荐