只需50美元！最简单的推理扩展方案，效果媲美o1！

NLP前沿1

发布于 2025-2-7 14:07

浏览

0收藏

只需50美元！最简单的推理扩展方案，效果媲美o1！-AI.x社区

这个工作目标是，找到一种简单的方法，可以实现test-time scalling。

关键点有2个，构建高质量的监督数据1k，用于监督微调；一个Budget Forcing的方法，用于限定模型的推理过程。

经过这么一折腾，模型的性能随着推理token数量变长而编号。

只需50美元！最简单的推理扩展方案，效果媲美o1！-AI.x社区

如何构建高质量的1k数据

初始收集：从 16 个不同的来源收集了 59,029 个问题，包括 NuminaMATH、AIME、OlympicArena、OmniMath、AGIEval 等。
最终筛选：通过质量、难度和多样性三个标准，从 59K 个问题中筛选出 1,000 个样本。具体步骤包括：

质量：去除格式错误或低质量的样本。

难度：根据模型性能和推理长度评估问题难度，去除模型能正确解答的问题。

多样性：使用 Claude 3.5 Sonnet 将问题分类到不同的领域，确保样本覆盖广泛的学科。

Budget Forcing （通过在测试时强制设定最大或最小思考 token 数量来控制模型的推理过程）

强制最大思考 token 数量：如果模型生成的思考 token 超过设定的上限，强制结束思考过程，并追加“Final Answer:”以提供当前最佳答案。

强制最小思考 token 数量：如果模型试图结束思考过程，抑制思考结束 token 的生成，并在当前推理轨迹后追加“Wait”，鼓励模型继续思考。

消融实验：

数据量、多样性和难度：通过随机选择、仅选择最长推理轨迹或仅最大化多样性来构建数据集，测试结果表明这些方法的性能均低于结合质量、难度和多样性的方法。

只需50美元！最简单的推理扩展方案，效果媲美o1！-AI.x社区

测试时扩展方法：比较了Budget Forcing、条件长度控制和拒绝采样等方法，发现Budget Forcing在控制性和性能上表现最佳。

只需50美元！最简单的推理扩展方案，效果媲美o1！-AI.x社区

最后，整个过程证明了通过简单的测试时扩展方法，使用少量数据即可实现强大的推理性能。s1-32B 模型在多个基准测试中表现出色，超越了闭源模型如 OpenAI 的 o1-preview。

本文转载自NLP前沿，作者：猕猴桃

标签

s1-32B

模型

已于2025-2-7 15:40:45修改

相关推荐

华为诺亚频域LLM「帝江」：仅需1/50训练成本，7B模型媲美LLaMA，推理加速5倍

轻薄滴假象 • 2479浏览 • 0回复
刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！

Aceryt • 2058浏览 • 0回复
OpenAI o1模型推理能力大幅提升的背后：重复采样如何提升AI推理能力

Syrupup • 3071浏览 • 0回复
OpenAI o1引发的思维链思考：思维链提示启发大模型推理

angel • 3043浏览 • 0回复
OpenAI o1推理模型基础入门

51CTO内容精选 • 1976浏览 • 0回复
o1推理扩展的风吹到了RAG，性能飙升58.9%！

PaperAgent • 2172浏览 • 0回复
OpenAI o1：用内部思维链进行复杂推理

shizhi02 • 2125浏览 • 0回复
o1快慢思考的风又吹到了Agent！

PaperAgent • 2469浏览 • 0回复
向o1看齐，Google开源RAG推理扩展，提升近60%

NLP前沿1 • 1669浏览 • 0回复
解密o1推理过程！DeepSeek-R1-Lite预览版上线

kede96 • 2568浏览 • 0回复
解读 Marco - o1：迈向开放式推理模型的探索与实践

AI论文解读 • 2269浏览 • 0回复
阿里发布类o1模型QWQ，可自我反思纠错，实测数学推理远超o1、DS-R1，人人免费

51CTO技术栈 • 2268浏览 • 0回复
大语言模型o1慢思考推理系统的破局之路：模仿、探索与自我提升的深度揭秘！

十一月雨_55 • 3277浏览 • 0回复
Kimi深夜炸场：满血版多模态o1级推理模型！OpenAI外全球首次！Jim Fan：同天两款国产o1绝对不是巧合！

51CTO技术栈 • 1455浏览 • 0回复
DeepSeek R1 Vs OpenAI o1！全球顶级推理模型训练技术对比大解密！

51CTO技术栈 • 4180浏览 • 0回复
李飞飞+50美元+蒸馏 S1=? DeepSeekR1

CourseAI • 1765浏览 • 0回复
S1：简单高效的测试时推理能力扩展方法

上堵吟1 • 1503浏览 • 0回复
o1模型医学推理惊人，超过人类医生

Aceryt • 1337浏览 • 0回复
比DeepSeek、o1高3倍！首创无服务器强化微调，只需十几个数据点

Aceryt • 1212浏览 • 0回复

Aceryt

LV.7

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

194

帖子

1696

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

只需50美元！最简单的推理扩展方案，效果媲美o1！