8块A100,32B碾压DeepSeek V3、o1-preview!普林斯顿北大首提分层RL推理

人工智能 新闻
8块GPU,让一个32B小模型在数学性能上技惊四座。普林斯顿联手北大提出全新ReasonFlux框架,直接AIME上碾压o1-preiview。

仅用8块A100,训出的32B模型,数学性能直接反超o1-preivie?!

看来,小模型真的要逆天改命了……

近日,来自普林斯顿和北大的华人团队基于一种创新性的「分层LLM推理」方法(Hierarchical LLM Reasoning)提出了全新的ReasonFlux框架。

即,通过Scaling思维模板(Thought Template),有效地优化推理搜索空间。

论文地址:https://arxiv.org/abs/2502.06772

开源项目:https://github.com/Gen-Verse/ReasonFlux

结果显示,团队训出的ReasonFlux-32B,在多个数学基准测试中直接吊打o1-preview、DeepSeek V3等一众SOTA模型。

在MATH基准中,ReasonFlux-32B以91.2%准确率傲视群雄,比o1-preview高出6.7%。

而在AIME基准中,它的解题率高达56.7%,再次将o1-preview远远甩在身后,领先27%。

以下就是ReasonFlux-32B的一个推理示例。

可以看到,对于同一道数学题的解答中,o1-mini从只有第一步的推理是对的,从第二步就开始犯错。

而Reason Flux在四步思考中没有一步犯错,最终给出了完全正确的答案。

不得不说,ReasonFlux-32B堪称一位顶尖「数学大师」。

它的成功证明了,分层LLM推理与Scaling思维模板的强大威力,其背后离不开这三大创新:

  1. 结构化通用思维模板库:包含约500个高层次思维模板,可泛化到类似或相关的推理问题。
  2. 分层强化学习:在思维模板序列上执行强化学习,不再在长思维链(CoT)数据上进行优化,使基础LLM能够规划最优模板轨迹,逐步解决复杂问题。
  3. 全新的推理Scaling系统:在推理过程中自适应Scaling思维模板,从而实现分层LLM推理。

令人惊喜的是,思维模板库还是开源的。

分层强化学习,掌控数学推理

LLM近年来成绩斐然,在一些任务上甚至超越了人类专家。

但在处理如美国数学奥林匹克竞赛(AIME)中的数学问题、OlympiadBench中的复杂推理任务以及LiveCodeBench中的编程任务时,仍有提升空间。

为了提升LLM在复杂问题上的推理能力,研究人员提出了多种推理时策略,主要分深度搜索和奖励模型引导两类方法。

深度搜索方法,如思维树(ToT)和思维图(GoT),让LLM探索多条推理路径,并通过自我评估来选择;奖励模型引导方法则利用奖励模型评估推理步骤的质量。

不过,这些方法存在计算成本高、依赖手动设计的搜索策略和实例/步骤级奖励等问题,泛化能力也受限。

检索增强生成(RAG)通过从外部知识源检索相关文档来辅助LLM生成回复,在一定程度上缓解了模型幻觉问题,提高了准确性。

但在复杂推理任务中,如数学、编程领域,通过标准嵌入相似性搜索检索相关模板非常困难,在处理大规模文档时效果也会下降。

最新研究中,普林斯顿联手北大学者提出了ReasonFlux框架——分层LLM推理,通过构建结构化思维模板库、进行思维模板轨迹的分层RL和设计新的推理Scaling系统,显著提升了复杂推理能力。

研究的主要贡献如下:

  1. 提出了ReasonFlux,一种分层LLM推理框架,显著提升模型复杂推理能力。
  2. 构建了一个结构化且精炼的模板库,包含约500个从高难度数学问题中提炼的思维模板。
  3. 开发了基于高层次思维模板序列的分层强化学习,使LLM能够生成最优的思维模板轨迹,将复杂问题拆解为一系列更简单的子问题,从而有效减少推理路径的搜索空间。
  4. 设计了一种新的推理Scaling系统,通过自适应Scaling思维模板来实现分层推理。该系统能够动态检索一系列高层次模板,并在推理过程中自适应执行实例化推理,实现高效的问题求解。

ReasonFlux框架解析

结构化思维模板库

ReasonFlux的核心之一是,构建结构化思维模板库。

人类在解决复杂推理问题时常常借助外部资源,受此启发,研究人员精心打造了这个模板库。

研究者从不同来源广泛收集具有挑战性的数学推理问题,利用LLM深入分析解题思路,总结解题策略并挖掘常见模式,进而得到了约500个以解决方案为导向的高质量思维模板。

每个模板都经过精心设计,包含名称、标签、描述、适用范围、应用步骤和示例等关键信息。

以「类型三角代换」模板为例,名称清晰地表明了模板的核心内容;标签便于基于关键词进行检索,如「三角代换」「无理函数优化」等;详细解释了在特定条件下(当问题中出现形式的根式且时)使用三角代换()的原理,将无理表达式转化为三角函数表达式,以便利用三角函数的性质和恒等式进行简化和求解。

适用范围明确界定了该模板可解决的问题类型,包括涉及函数优化或值域的问题、含有特定根式的方程或不等式问题以及与圆相关的几何问题等。

通过这些丰富的元数据,模板库能够实现高效检索,为不同问题精准匹配最合适的模板。

分层强化学习:规划最优推理路径

有了结构化模板库,还需要有效的方法来选择合适的模板解决实际问题。

ReasonFlux采用分层强化学习来实现这一目标。

首先是基于结构的微调。利用结构化模板库构建知识密集型训练数据集,该数据集包含从模板库中提取的模板名称、标签、原理描述和适用范围等信息,以元组(T_nam, T_tag, T_des, T_sco)的形式呈现。

然后,在这个数据集上对基础LLM进行微调,让模型深入理解每个模板的结构、内容和用途。

微调的优化目标是最大化模型在给定模板名称和标签时,生成正确描述和适用范围的可能性,确保微调后的模型能够有效关联模板的识别信息和功能信息,将微调后的模型记为π_struct。

接着是思维模板轨迹的偏好学习。基于微调后的π_struct,进一步训练它为输入问题规划出一系列高级思维模板(即思维模板轨迹T_traj)。

给定一个输入问题x,π_struct首先分析和抽象问题的条件信息,识别其中的核心数学概念和关系,然后配置一条轨迹T_traj={S_1, S_2, ..., S_N},每个S_i代表推理过程中的一个高级步骤,关联一个从模板库中检索到的可用于解决问题的模板名称。每个检索到的模板T_i会根据输入问题x的具体细节进行实例化,并为单独的推理大模型π_inf提供细粒度的指导来解决问题。

为了衡量给定轨迹的有效性和泛化能力,研究人员利用一组与原始输入问题x相似的问题X_sim,使用轨迹上实例化的模板引导π_inf解决每个X_i ∈ X_sim,π_inf在这些问题上的平均准确率作为轨迹奖励R(T_traj),公式为:

这个奖励信号用于构建优化对,进一步优化π_struct。

具体来说,对于每个输入问题x,采样多个不同的T_traj并评估其质量,定义优化π_struct的损失函数为:

其中D_pair是优化对数据集,每个对包含一个输入问题x和两条轨,π_θ是从π_struct初始化的待优化LLM。

推理Scaling系统

经过分层强化学习优化后的模型被称为ReasonFlux。在此基础上,研究人员设计了全新的推理Scaling系统。

面对一个输入问题时,ReasonFlux首先分析并提取问题中的核心数学概念和关系,据此配置一条最优的模板轨迹.这条轨迹不是固定不变的,而是根据问题的具体特点动态生成的。

然后,ReasonFlux根据轨迹中的步骤信息,从模板库中检索最相关的思维模板。

通过分析推理过程中生成的中间结果,ReasonFlux能够获得有价值的见解,从而调整轨迹,这与人类通过检查部分结果发现更高效解决方案的过程相似。

检索到模板后,ReasonFlux会指示推理LLM根据问题的具体细节实例化每个模板,将抽象的模板转化为具体的推理步骤。

在这个过程中,ReasonFlux会不断评估和分析推理LLM生成的中间结果,根据评估结果决定是否调整轨迹,比如调整后续步骤或检索其他替代模板。

这种迭代反馈机制模仿了人类在解决复杂问题时,通过分析部分结果不断优化解决方案的过程,使ReasonFlux能够更有效地解决复杂问题。

实验结果

研究人员使用Gemini-2.0从各种数学数据集的训练集中,构建了约500个思维模板的结构化模板库。

训练过程中,由于GPU资源有限,选用Qwen2.5-32B-Instruct作为基础模型和推理LLM,仅使用8个NVIDIA A100 GPU,大大降低了成本。

在基于结构的微调阶段,用包含15K个样本的训练数据集训练初始化的模型;在模板轨迹优化过程中,用从MATH 和自制数据集中收集的10K对轨迹进行训练。

为了全面评估ReasonFlux的复杂推理能力,选择了一系列具有挑战性的推理基准测试,包括MATH、AIME 2024、AMC 2023、OlympiadBench和Gaokao En 2023。

在实验中,选择了前沿LLM(如GPT-4o、Claude、OpenAI o1-preview和o1-mini)和开源推理模型(如DeepSeek-Coder-v2-Instruct、Mathstral、NuminaMath-72B等)作为基线模型,这些模型代表了当前数学推理的最高水平。

在具有挑战性的推理基准测试中,ReasonFlux-32B表现出色,以32B参数达到了新的最先进性能。

在MATH基准测试中,准确率达到91.2%,比o1-preview高出6.7%;在AIME 2024基准测试中,准确率为56.7%,比o1-preview和DeepSeek-V3分别高出27%和45%,与OpenAI o1-mini的性能相当。

在其他具有挑战性的数据集上,ReasonFlux-32B同样展现出了强大的泛化能力和有效性。

在OlympiadBench上,其准确率达到63.3%,超过DeepSeek-V3 14%。在Gaokao En 2023中,准确率为 83.6%,比o1-mini高出7%。

值得注意的是,ReasonFlux使用的模板库主要由公开可用的数据集构建而成,并且在所有评估过程中使用相同的模板库,这充分证明了其强大的泛化能力。

通过在MATH基准测试上的实验发现,使用模板增强推理的方法能显著提高不同基础模型的推理准确率。

实验结果显示,较小规模的LLM在模板的引导下,推理准确率提升明显,甚至能够超越较大规模LLM的直接推理表现,进一步凸显了结构化模板库的有效性。

在推理过程中,ReasonFlux能够根据问题的复杂性自适应地规划合理的模板轨迹,并确定与推理LLM交互的轮数。

随着问题复杂度的增加,它会自动调整检索的模板数量和交互轮数,有效平衡了推理成本和性能。

在探索与利用的权衡方面,与Best-of-N和MCTS等推理策略相比,ReasonFlux在所有难度级别下都保持着更低且更稳定的探索成本。

这得益于其结构化模板库对搜索空间的有效优化,以及模板的高质量和泛化能力,使得推理LLM能够更准确高效地进行推理,从而在探索与利用之间实现了更优的平衡。

ReasonFlux目前也存在一定的局限性。例如,模板库虽然已经较为丰富,但可能无法涵盖所有类型的复杂问题;在处理某些极端复杂或全新领域的问题时,其推理能力或许还需要进一步提升。

未来的研究可以朝着进一步扩展模板库的覆盖范围、探索更高效的学习算法的方向展开,将ReasonFlux应用于更多领域。

作者介绍

Ling Yang

Ling Yang现为北大在读博士生(即将毕业),师从Bin Cui和Luxia Zhang教授。

同时,他也是普林斯顿大学高级研究助理,与Mengdi Wang教授合作。

他的研究兴趣主要包括生成式人工智能(扩散模型、大模型)和AI for Science。

此外,他担任多个国际会议和期刊的程序委员会成员或审稿人,包括SIGGRAPH、TPAMI、ICML、ICLR、NeurIPS、CVPR、KDD和AAAI。

Zhaochen Yu

Zhaochen Yu是新加坡国立大学研究生,目前在PKU-DAIR Lab实习,与Ling Yang和Bin Cui合作。

此前,他于2024年在北京理工大学获得学士学位。

责任编辑:张燕妮 来源: 新智元
相关推荐

2025-02-12 12:04:54

2025-02-11 16:17:42

2024-09-23 16:00:00

AI模型测评

2012-08-02 16:18:10

普林斯顿结构哈佛结构架构

2025-01-13 00:00:00

训练数据模型

2023-09-12 14:45:18

2024-12-20 14:30:00

2025-02-14 10:23:00

LLM模型谷歌

2024-11-12 13:40:00

2024-12-30 20:32:36

2011-04-22 10:14:34

无线网络DHCPAndroid

2022-07-26 09:56:48

模型AI

2024-05-20 15:19:25

训练模型

2024-12-30 09:25:00

数据训练摩擦

2025-01-02 09:53:17

2023-12-05 13:25:00

数据训练

2024-08-02 13:33:04

2025-02-08 09:15:00

2024-11-20 14:00:00

模型测评
点赞
收藏

51CTO技术栈公众号