仅用8块A100,训出的32B模型,数学性能直接反超o1-preivie?!
看来,小模型真的要逆天改命了……
近日,来自普林斯顿和北大的华人团队基于一种创新性的「分层LLM推理」方法(Hierarchical LLM Reasoning)提出了全新的ReasonFlux框架。
即,通过Scaling思维模板(Thought Template),有效地优化推理搜索空间。
论文地址:https://arxiv.org/abs/2502.06772
开源项目:https://github.com/Gen-Verse/ReasonFlux
结果显示,团队训出的ReasonFlux-32B,在多个数学基准测试中直接吊打o1-preview、DeepSeek V3等一众SOTA模型。
在MATH基准中,ReasonFlux-32B以91.2%准确率傲视群雄,比o1-preview高出6.7%。
而在AIME基准中,它的解题率高达56.7%,再次将o1-preview远远甩在身后,领先27%。
以下就是ReasonFlux-32B的一个推理示例。
可以看到,对于同一道数学题的解答中,o1-mini从只有第一步的推理是对的,从第二步就开始犯错。
而Reason Flux在四步思考中没有一步犯错,最终给出了完全正确的答案。
不得不说,ReasonFlux-32B堪称一位顶尖「数学大师」。
它的成功证明了,分层LLM推理与Scaling思维模板的强大威力,其背后离不开这三大创新:
- 结构化通用思维模板库:包含约500个高层次思维模板,可泛化到类似或相关的推理问题。
- 分层强化学习:在思维模板序列上执行强化学习,不再在长思维链(CoT)数据上进行优化,使基础LLM能够规划最优模板轨迹,逐步解决复杂问题。
- 全新的推理Scaling系统:在推理过程中自适应Scaling思维模板,从而实现分层LLM推理。
令人惊喜的是,思维模板库还是开源的。
分层强化学习,掌控数学推理
LLM近年来成绩斐然,在一些任务上甚至超越了人类专家。
但在处理如美国数学奥林匹克竞赛(AIME)中的数学问题、OlympiadBench中的复杂推理任务以及LiveCodeBench中的编程任务时,仍有提升空间。
为了提升LLM在复杂问题上的推理能力,研究人员提出了多种推理时策略,主要分深度搜索和奖励模型引导两类方法。
深度搜索方法,如思维树(ToT)和思维图(GoT),让LLM探索多条推理路径,并通过自我评估来选择;奖励模型引导方法则利用奖励模型评估推理步骤的质量。
不过,这些方法存在计算成本高、依赖手动设计的搜索策略和实例/步骤级奖励等问题,泛化能力也受限。
检索增强生成(RAG)通过从外部知识源检索相关文档来辅助LLM生成回复,在一定程度上缓解了模型幻觉问题,提高了准确性。
但在复杂推理任务中,如数学、编程领域,通过标准嵌入相似性搜索检索相关模板非常困难,在处理大规模文档时效果也会下降。
最新研究中,普林斯顿联手北大学者提出了ReasonFlux框架——分层LLM推理,通过构建结构化思维模板库、进行思维模板轨迹的分层RL和设计新的推理Scaling系统,显著提升了复杂推理能力。
研究的主要贡献如下:
- 提出了ReasonFlux,一种分层LLM推理框架,显著提升模型复杂推理能力。
- 构建了一个结构化且精炼的模板库,包含约500个从高难度数学问题中提炼的思维模板。
- 开发了基于高层次思维模板序列的分层强化学习,使LLM能够生成最优的思维模板轨迹,将复杂问题拆解为一系列更简单的子问题,从而有效减少推理路径的搜索空间。
- 设计了一种新的推理Scaling系统,通过自适应Scaling思维模板来实现分层推理。该系统能够动态检索一系列高层次模板,并在推理过程中自适应执行实例化推理,实现高效的问题求解。
ReasonFlux框架解析
结构化思维模板库
ReasonFlux的核心之一是,构建结构化思维模板库。
人类在解决复杂推理问题时常常借助外部资源,受此启发,研究人员精心打造了这个模板库。
研究者从不同来源广泛收集具有挑战性的数学推理问题,利用LLM深入分析解题思路,总结解题策略并挖掘常见模式,进而得到了约500个以解决方案为导向的高质量思维模板。
每个模板都经过精心设计,包含名称、标签、描述、适用范围、应用步骤和示例等关键信息。
以「类型三角代换」模板为例,名称清晰地表明了模板的核心内容;标签便于基于关键词进行检索,如「三角代换」「无理函数优化」等;详细解释了在特定条件下(当问题中出现
形式的根式且
时)使用三角代换(
或
)的原理,将无理表达式转化为三角函数表达式,以便利用三角函数的性质和恒等式进行简化和求解。
适用范围明确界定了该模板可解决的问题类型,包括涉及函数优化或值域的问题、含有特定根式的方程或不等式问题以及与圆相关的几何问题等。
通过这些丰富的元数据,模板库能够实现高效检索,为不同问题精准匹配最合适的模板。
分层强化学习:规划最优推理路径
有了结构化模板库,还需要有效的方法来选择合适的模板解决实际问题。
ReasonFlux采用分层强化学习来实现这一目标。
首先是基于结构的微调。利用结构化模板库构建知识密集型训练数据集,该数据集包含从模板库中提取的模板名称、标签、原理描述和适用范围等信息,以元组(T_nam, T_tag, T_des, T_sco)的形式呈现。
然后,在这个数据集上对基础LLM进行微调,让模型深入理解每个模板的结构、内容和用途。
微调的优化目标是最大化模型在给定模板名称和标签时,生成正确描述和适用范围的可能性,确保微调后的模型能够有效关联模板的识别信息和功能信息,将微调后的模型记为π_struct。
接着是思维模板轨迹的偏好学习。基于微调后的π_struct,进一步训练它为输入问题规划出一系列高级思维模板(即思维模板轨迹T_traj)。
给定一个输入问题x,π_struct首先分析和抽象问题的条件信息,识别其中的核心数学概念和关系,然后配置一条轨迹T_traj={S_1, S_2, ..., S_N},每个S_i代表推理过程中的一个高级步骤,关联一个从模板库中检索到的可用于解决问题的模板名称。每个检索到的模板T_i会根据输入问题x的具体细节进行实例化,并为单独的推理大模型π_inf提供细粒度的指导来解决问题。
为了衡量给定轨迹的有效性和泛化能力,研究人员利用一组与原始输入问题x相似的问题X_sim,使用轨迹上实例化的模板引导π_inf解决每个X_i ∈ X_sim,π_inf在这些问题上的平均准确率作为轨迹奖励R(T_traj),公式为:
这个奖励信号用于构建优化对,进一步优化π_struct。
具体来说,对于每个输入问题x,采样多个不同的T_traj并评估其质量,定义优化π_struct的损失函数为:
其中D_pair是优化对数据集,每个对包含一个输入问题x和两条轨、
,
,π_θ是从π_struct初始化的待优化LLM。
推理Scaling系统
经过分层强化学习优化后的模型被称为ReasonFlux。在此基础上,研究人员设计了全新的推理Scaling系统。
面对一个输入问题时,ReasonFlux首先分析并提取问题中的核心数学概念和关系,据此配置一条最优的模板轨迹.这条轨迹不是固定不变的,而是根据问题的具体特点动态生成的。
然后,ReasonFlux根据轨迹中的步骤信息,从模板库中检索最相关的思维模板。
通过分析推理过程中生成的中间结果,ReasonFlux能够获得有价值的见解,从而调整轨迹,这与人类通过检查部分结果发现更高效解决方案的过程相似。
检索到模板后,ReasonFlux会指示推理LLM根据问题的具体细节实例化每个模板,将抽象的模板转化为具体的推理步骤。
在这个过程中,ReasonFlux会不断评估和分析推理LLM生成的中间结果,根据评估结果决定是否调整轨迹,比如调整后续步骤或检索其他替代模板。
这种迭代反馈机制模仿了人类在解决复杂问题时,通过分析部分结果不断优化解决方案的过程,使ReasonFlux能够更有效地解决复杂问题。
实验结果
研究人员使用Gemini-2.0从各种数学数据集的训练集中,构建了约500个思维模板的结构化模板库。
训练过程中,由于GPU资源有限,选用Qwen2.5-32B-Instruct作为基础模型和推理LLM,仅使用8个NVIDIA A100 GPU,大大降低了成本。
在基于结构的微调阶段,用包含15K个样本的训练数据集训练初始化的模型;在模板轨迹优化过程中,用从MATH 和自制数据集中收集的10K对轨迹进行训练。
为了全面评估ReasonFlux的复杂推理能力,选择了一系列具有挑战性的推理基准测试,包括MATH、AIME 2024、AMC 2023、OlympiadBench和Gaokao En 2023。
在实验中,选择了前沿LLM(如GPT-4o、Claude、OpenAI o1-preview和o1-mini)和开源推理模型(如DeepSeek-Coder-v2-Instruct、Mathstral、NuminaMath-72B等)作为基线模型,这些模型代表了当前数学推理的最高水平。
在具有挑战性的推理基准测试中,ReasonFlux-32B表现出色,以32B参数达到了新的最先进性能。
在MATH基准测试中,准确率达到91.2%,比o1-preview高出6.7%;在AIME 2024基准测试中,准确率为56.7%,比o1-preview和DeepSeek-V3分别高出27%和45%,与OpenAI o1-mini的性能相当。
在其他具有挑战性的数据集上,ReasonFlux-32B同样展现出了强大的泛化能力和有效性。
在OlympiadBench上,其准确率达到63.3%,超过DeepSeek-V3 14%。在Gaokao En 2023中,准确率为 83.6%,比o1-mini高出7%。
值得注意的是,ReasonFlux使用的模板库主要由公开可用的数据集构建而成,并且在所有评估过程中使用相同的模板库,这充分证明了其强大的泛化能力。
通过在MATH基准测试上的实验发现,使用模板增强推理的方法能显著提高不同基础模型的推理准确率。
实验结果显示,较小规模的LLM在模板的引导下,推理准确率提升明显,甚至能够超越较大规模LLM的直接推理表现,进一步凸显了结构化模板库的有效性。
在推理过程中,ReasonFlux能够根据问题的复杂性自适应地规划合理的模板轨迹,并确定与推理LLM交互的轮数。
随着问题复杂度的增加,它会自动调整检索的模板数量和交互轮数,有效平衡了推理成本和性能。
在探索与利用的权衡方面,与Best-of-N和MCTS等推理策略相比,ReasonFlux在所有难度级别下都保持着更低且更稳定的探索成本。
这得益于其结构化模板库对搜索空间的有效优化,以及模板的高质量和泛化能力,使得推理LLM能够更准确高效地进行推理,从而在探索与利用之间实现了更优的平衡。
ReasonFlux目前也存在一定的局限性。例如,模板库虽然已经较为丰富,但可能无法涵盖所有类型的复杂问题;在处理某些极端复杂或全新领域的问题时,其推理能力或许还需要进一步提升。
未来的研究可以朝着进一步扩展模板库的覆盖范围、探索更高效的学习算法的方向展开,将ReasonFlux应用于更多领域。
作者介绍
Ling Yang
Ling Yang现为北大在读博士生(即将毕业),师从Bin Cui和Luxia Zhang教授。
同时,他也是普林斯顿大学高级研究助理,与Mengdi Wang教授合作。
他的研究兴趣主要包括生成式人工智能(扩散模型、大模型)和AI for Science。
此外,他担任多个国际会议和期刊的程序委员会成员或审稿人,包括SIGGRAPH、TPAMI、ICML、ICLR、NeurIPS、CVPR、KDD和AAAI。
Zhaochen Yu
Zhaochen Yu是新加坡国立大学研究生,目前在PKU-DAIR Lab实习,与Ling Yang和Bin Cui合作。
此前,他于2024年在北京理工大学获得学士学位。