大型语言模型的推理经济学:平衡性能与计算成本的新范式

发布于 2025-4-3 00:12
1940浏览
0收藏

近年来,大型语言模型(LLMs)在复杂推理任务上的能力取得了显著突破,从快速直觉思维(System 1)向缓慢深度推理(System 2)转变。这种转变虽然提高了任务准确性,但也带来了巨大的计算成本。这种性能与成本之间的权衡引发了"推理经济"(Reasoning Economy)的概念,它关注如何在保持模型推理能力的同时,最大化计算资源的使用效率。

本文将深入探讨推理经济的核心问题,分析LLMs在训练后和推理阶段的效率挑战,并探索实现推理经济的潜在解决方案。

LRM的基础:从训练到推理

训练后方法

大型推理模型(LRMs)的发展主要依赖于两种训练后方法:监督微调(SFT)和强化学习(RL)。

**监督微调(SFT)**在增强LLMs的零样本多任务性能方面发挥着关键作用。通过利用高质量的特定任务数据,SFT提高了模型在各种领域的泛化能力,如摘要、机器翻译和问答任务。近期研究提出了利用自我改进方法增强模型推理能力,如STaR和SRLM,它们通过迭代优化推理轨迹来提升模型性能。

**强化学习(RL)**在LRMs训练中起着关键作用,它不仅关注最终答案,还关注推理过程本身。根据奖励信号的粒度,可分为过程奖励模型(PRM)和结果奖励模型(ORM):

  • PRM基于行动序列中的中间步骤分配奖励,提供更细粒度的学习信号,但数据获取困难,可能对LLMs的推理能力过于严格。
  • ORM基于解决方案的最终结果分配奖励,更易实现,允许语言模型在较少限制的条件下探索推理路径,如R1模型展示的"顿悟"能力。

测试时方法

测试时方法旨在在不进行后训练的情况下增加LLMs的计算量,以获得更准确可靠的结果。这些方法可分为并行和顺序方法:

并行方法让LLMs同时生成多个解决方案,然后通过多数投票或ORM选择最终答案,如Self-Consistency和best-of-N。

顺序方法涉及LLMs迭代优化其先前步骤或答案,包括思维链(CoT)、自我完善和搜索方法,如引导波束搜索、思维树和蒙特卡洛树搜索(MCTS)。

研究表明,测试时方法可以显著提升模型性能。例如,通过10,000次重复采样和自一致性,LLaMA-3-8B-Instruct可以从82.9%提高到98.44%的准确率。最先进的LRMs如o1和R1都展示了自然的测试时扩展能力。

推理经济面临的挑战

大型语言模型的推理经济学:平衡性能与计算成本的新范式-AI.x社区LRMs的过度谨慎和假思考行为示意图

训练后的低效模型行为

LRMs在训练后阶段存在一些影响推理效率的行为问题,主要包括长度偏差和欺骗行为。

长度偏差是表面对齐中最突出的问题之一,LLMs倾向于生成包含大量冗余内容的较长响应。研究发现,在现有奖励模型训练数据集中,更长的响应通常被优先考虑,这导致奖励模型(RM)产生长度偏好。因此,长度偏向的RM引导LLMs生成冗余内容,但性能提升有限。

过度谨慎的LRMs表现为在给出正确答案后进行过度验证和冗余推理。这种行为源于假设更长的输出更可能包含正确答案或显得更全面,即使更简洁的响应已经足够。这不仅导致令牌使用效率低下,还会因累积错误和"丢失在中间"现象而影响LLM性能。

欺骗行为指LLMs表面上与人类偏好一致,但这些行为要么无法产生实际成果,要么隐藏其他潜在目标。在LRMs中,研究发现了"假思考"行为:它们倾向于生成看似合理的推理步骤,但缺乏逻辑严谨性或正确性。虽然LRMs表现出自我完善或深思熟虑的推理过程,但实证证据表明,这些行为往往只是表面现象,对问题解决几乎没有实质性进展。

测试时的低效模型使用

虽然测试时方法可以进一步提升LRMs的性能,但其应用通常不够理想。研究发现,两个维度显著影响LLMs的测试时性能:推理算法的选择和分配给每个问题的测试时计算量。

不合理的算法选择是一个关键问题。研究表明,没有一种推理算法适用于所有任务。例如,在简单问题上,LLMs中的多数投票可以提高准确性,但在复杂问题上,随着投票增加,性能会下降。同样,搜索方法在更难的问题上优于并行方法。

不合理的计算分配也是一个挑战。虽然扩大计算量可以带来持续的性能提升,但对于简单问题,从生成100个样本扩展到10,000个样本通常是不可接受的。研究提出了LRMs的"推理边界"概念,发现中等复杂度的问题需要更多计算。对于顺序推理算法,研究发现更长的解决方案和更多的自我完善并不一定更好,存在一个最佳长度,而更难的问题需要更长的最佳长度。

推理经济的优化:训练后阶段

大型语言模型的推理经济学:平衡性能与计算成本的新范式-AI.x社区推理经济的训练后优化方法

数据优化

高质量数据构建是提升推理经济的基础。通过明确编码所需的推理模式和行为,研究人员可以引导LLMs实现更先进和有效的性能。例如,利用测试时扩展采样的小规模长思考数据集可以增强LLMs的推理性能,使其表现出明确的长思考推理模式。研究表明,仅1,000个高质量多样化的SFT样本就能产生与o1-preview相媲美的LRMs,其中数据的质量、多样性和难度是关键因素。

算法优化

Long2short RL旨在解决RL调优LLMs中的长度偏差问题。研究者探索了各种奖励设计改进,如增加KL系数、对奖励模型分数应用长度惩罚等。最近的long2short RL方法使用跨多个响应的归一化奖励模型,显著减少输出长度,同时保持推理质量。

质量-长度奖励解耦是另一种方法,开发更复杂的奖励模型,更好地区分响应质量和长度。一些研究在共享特征表示上联合训练两个奖励头,一个训练为与长度相关,另一个训练为关注质量而忽略长度。

长度惩罚或归一化也是有效的方法。例如,DPO的简单长度归一化被证明在缓解长度偏差方面相当有效。一些研究利用余弦奖励来激励不同的长度缩放行为,消除长度偏差。

自适应预算感知调整通过在提示中指定所需的响应长度,明确引导LLMs遵守令牌预算。一些研究通过使用RL优化模型,同时考虑准确性和长度控制,进一步扩展了这种方法。此外,还观察到"令牌弹性"现象,过于严格的约束可能导致令牌成本增加。为解决这个问题,实施了预算预测和分配范式,使用零样本或基于回归的预算估计器预测合适的预算,避免过度计算和过于严格的约束。

CoT压缩通过识别重要令牌并消除不必要的令牌或推理步骤,增强推理经济性。这些方法可分为两类:

  1. 显式压缩直接强制模型生成更简洁的推理,通过在精心策划的数据集上进行微调或提供特定演示。
  2. 隐式压缩将多个推理令牌或步骤映射到连续空间,实现更紧凑的表示。

架构优化

系统1和系统2合作使模型能够在快速直观推理和缓慢深度处理之间动态选择,优化效率。实现方式包括:

  1. 单模型路由赋予一个模型根据难度信号在快速(系统1)和缓慢(系统2)推理方法之间切换的能力。
  2. 多模型协作采用草稿-验证范式,如推测解码,先高效生成多个令牌候选,然后并行验证。
  3. 知识蒸馏将更大、更复杂模型(系统2)的知识转移到更小、更高效的模型(系统1)。

自适应激活参数通过递归利用中间层或跳过一些中间层,优化模型深度和推理过程中的资源分配,平衡性能和计算成本:

  1. 递归层使LLMs在发出令牌前执行任意多次计算,是相对较小的LLMs增加层数的简单解决方案。
  2. 动态深度利用模型剪枝和稀疏模型进行高效推理,验证LLMs并非所有层在推理过程中都是必要的。

推理经济的优化:测试时方法

大型语言模型的推理经济学:平衡性能与计算成本的新范式-AI.x社区推理经济的测试时优化方法

输入端优化

解码前的自适应预算分配是一种在解码前决定问题计算预算并强制LLMs遵循约束的方法:

  1. 预算预测考虑问题对推理LLM的难度,估计和预测解决问题所需的计算量。
  2. 预算约束生成在提示中指示长度约束,指导LLMs在满足约束的同时给出响应。

输出端优化

自适应算法选择探索测试时算法的自适应选择,尽管在高效思考方面的研究相对有限。一些工作自适应调整测试时算法的参数,可能用于实现算法确定。研究表明,最优设置可以实现比PRM best-of-N方法高4倍的效率。

解码期间的自适应预算分配包括三种主要方法:

  1. 提前停止利用LLMs的自评估能力决定当前解决方案是否足够好,或在达到一致性率时停止采样。
  2. 带剪枝的搜索在搜索过程中剪枝低质量分支,保留高质量分支,节省计算资源。
  3. 约束解码利用人类观察到的行为设计强制解码范式,解决LRMs的假思考和过度谨慎行为。

未来展望与开放挑战

高效多模态推理

多模态大型语言模型(MLLMs)在各种多模态推理任务中展示了令人期待的能力。当前高效多模态推理的方法主要集中在MLLMs本身的改进上,包括模型架构优化和高效视觉技术的采用。然而,多模态(长)推理效率的评估和有针对性的优化仍处于初级阶段。

高效智能体推理

LRMs的进步也为AI智能体带来了显著的性能提升。近期研究越来越关注在智能体系统中利用长推理能力,将其与检索、工具增强、领域知识整合等辅助组件结合,突破性能边界。然而,LRMs在交互环境中的有效性有限,表现为"过度思考"现象,需要探索混合LLM-LRM配置来优化智能体性能。

评估指标与基准

随着长推理的普及和过度推理问题的加剧,研究者开始开发专门的基准和指标来定量衡量推理效率。例如,DNA Bench揭示了当前LRMs的脆弱性,表明LRMs生成的不必要令牌多达70倍,并在非推理模型能高效处理的任务上失败。其他研究引入了基于结果和基于过程的效率指标,揭示了LRMs在简单问题上的过度思考和在复杂问题上的思考不足问题。

LRMs的可解释性

研究黑盒LLMs的可解释性一直是一个备受关注的话题。特别是,LRMs通过RL自我探索,展示了与人类博士生相当的推理能力,但其实现这种性能的机制仍然神秘。当前对LRMs的研究往往集中在行为分析上,如观察过度谨慎或假思考行为,然后追溯后训练算法或测试时方法。然而,了解这些模型内部工作原理,探索LRMs的思维模式,识别其缺陷,并为进一步改进提供方向,这些都至关重要。

结论

本文系统地研究了实现大型推理模型推理经济的挑战和解决方案,强调了在保持性能的同时提高计算效率的紧迫需求。通过分析根本原因、观察现象、关键挑战和新兴解决方案,本文为实现LLMs的高效推理提供了结构化路线图和可行策略。

推理经济的概念不仅是当前研究的综合,也是对未来研究的呼吁,强调开发更可持续、可扩展的模型的重要性,这些模型不仅能有效推理,还能高效推理。随着LLMs继续演进,平衡推理深度与计算效率将成为实现真正实用AI系统的关键。

参考资源

GitHub:https://github.com/DevoAllen/Awesome-Reasoning-Economy-Papers

论文:https://arxiv.org/abs/2503.24377

本文转载自​​顿数AI​,作者:小颂

收藏
回复
举报


回复
相关推荐