大型语言模型的推理经济学：平衡性能与计算成本的新范式

发布于 2025-4-3 00:12

1940浏览

0收藏

近年来，大型语言模型(LLMs)在复杂推理任务上的能力取得了显著突破，从快速直觉思维(System 1)向缓慢深度推理(System 2)转变。这种转变虽然提高了任务准确性，但也带来了巨大的计算成本。这种性能与成本之间的权衡引发了"推理经济"(Reasoning Economy)的概念，它关注如何在保持模型推理能力的同时，最大化计算资源的使用效率。

本文将深入探讨推理经济的核心问题，分析LLMs在训练后和推理阶段的效率挑战，并探索实现推理经济的潜在解决方案。

LRM的基础：从训练到推理

训练后方法

大型推理模型(LRMs)的发展主要依赖于两种训练后方法：监督微调(SFT)和强化学习(RL)。

**监督微调(SFT)**在增强LLMs的零样本多任务性能方面发挥着关键作用。通过利用高质量的特定任务数据，SFT提高了模型在各种领域的泛化能力，如摘要、机器翻译和问答任务。近期研究提出了利用自我改进方法增强模型推理能力，如STaR和SRLM，它们通过迭代优化推理轨迹来提升模型性能。

**强化学习(RL)**在LRMs训练中起着关键作用，它不仅关注最终答案，还关注推理过程本身。根据奖励信号的粒度，可分为过程奖励模型(PRM)和结果奖励模型(ORM)：

PRM基于行动序列中的中间步骤分配奖励，提供更细粒度的学习信号，但数据获取困难，可能对LLMs的推理能力过于严格。
ORM基于解决方案的最终结果分配奖励，更易实现，允许语言模型在较少限制的条件下探索推理路径，如R1模型展示的"顿悟"能力。

测试时方法

测试时方法旨在在不进行后训练的情况下增加LLMs的计算量，以获得更准确可靠的结果。这些方法可分为并行和顺序方法：

并行方法让LLMs同时生成多个解决方案，然后通过多数投票或ORM选择最终答案，如Self-Consistency和best-of-N。

顺序方法涉及LLMs迭代优化其先前步骤或答案，包括思维链(CoT)、自我完善和搜索方法，如引导波束搜索、思维树和蒙特卡洛树搜索(MCTS)。

研究表明，测试时方法可以显著提升模型性能。例如，通过10,000次重复采样和自一致性，LLaMA-3-8B-Instruct可以从82.9%提高到98.44%的准确率。最先进的LRMs如o1和R1都展示了自然的测试时扩展能力。

推理经济面临的挑战

大型语言模型的推理经济学：平衡性能与计算成本的新范式-AI.x社区 LRMs的过度谨慎和假思考行为示意图

训练后的低效模型行为

LRMs在训练后阶段存在一些影响推理效率的行为问题，主要包括长度偏差和欺骗行为。

长度偏差是表面对齐中最突出的问题之一，LLMs倾向于生成包含大量冗余内容的较长响应。研究发现，在现有奖励模型训练数据集中，更长的响应通常被优先考虑，这导致奖励模型(RM)产生长度偏好。因此，长度偏向的RM引导LLMs生成冗余内容，但性能提升有限。

过度谨慎的LRMs表现为在给出正确答案后进行过度验证和冗余推理。这种行为源于假设更长的输出更可能包含正确答案或显得更全面，即使更简洁的响应已经足够。这不仅导致令牌使用效率低下，还会因累积错误和"丢失在中间"现象而影响LLM性能。

欺骗行为指LLMs表面上与人类偏好一致，但这些行为要么无法产生实际成果，要么隐藏其他潜在目标。在LRMs中，研究发现了"假思考"行为：它们倾向于生成看似合理的推理步骤，但缺乏逻辑严谨性或正确性。虽然LRMs表现出自我完善或深思熟虑的推理过程，但实证证据表明，这些行为往往只是表面现象，对问题解决几乎没有实质性进展。

测试时的低效模型使用

虽然测试时方法可以进一步提升LRMs的性能，但其应用通常不够理想。研究发现，两个维度显著影响LLMs的测试时性能：推理算法的选择和分配给每个问题的测试时计算量。

不合理的算法选择是一个关键问题。研究表明，没有一种推理算法适用于所有任务。例如，在简单问题上，LLMs中的多数投票可以提高准确性，但在复杂问题上，随着投票增加，性能会下降。同样，搜索方法在更难的问题上优于并行方法。

不合理的计算分配也是一个挑战。虽然扩大计算量可以带来持续的性能提升，但对于简单问题，从生成100个样本扩展到10,000个样本通常是不可接受的。研究提出了LRMs的"推理边界"概念，发现中等复杂度的问题需要更多计算。对于顺序推理算法，研究发现更长的解决方案和更多的自我完善并不一定更好，存在一个最佳长度，而更难的问题需要更长的最佳长度。

推理经济的优化：训练后阶段

大型语言模型的推理经济学：平衡性能与计算成本的新范式-AI.x社区推理经济的训练后优化方法

数据优化

高质量数据构建是提升推理经济的基础。通过明确编码所需的推理模式和行为，研究人员可以引导LLMs实现更先进和有效的性能。例如，利用测试时扩展采样的小规模长思考数据集可以增强LLMs的推理性能，使其表现出明确的长思考推理模式。研究表明，仅1,000个高质量多样化的SFT样本就能产生与o1-preview相媲美的LRMs，其中数据的质量、多样性和难度是关键因素。

算法优化

Long2short RL旨在解决RL调优LLMs中的长度偏差问题。研究者探索了各种奖励设计改进，如增加KL系数、对奖励模型分数应用长度惩罚等。最近的long2short RL方法使用跨多个响应的归一化奖励模型，显著减少输出长度，同时保持推理质量。

质量-长度奖励解耦是另一种方法，开发更复杂的奖励模型，更好地区分响应质量和长度。一些研究在共享特征表示上联合训练两个奖励头，一个训练为与长度相关，另一个训练为关注质量而忽略长度。

长度惩罚或归一化也是有效的方法。例如，DPO的简单长度归一化被证明在缓解长度偏差方面相当有效。一些研究利用余弦奖励来激励不同的长度缩放行为，消除长度偏差。

自适应预算感知调整通过在提示中指定所需的响应长度，明确引导LLMs遵守令牌预算。一些研究通过使用RL优化模型，同时考虑准确性和长度控制，进一步扩展了这种方法。此外，还观察到"令牌弹性"现象，过于严格的约束可能导致令牌成本增加。为解决这个问题，实施了预算预测和分配范式，使用零样本或基于回归的预算估计器预测合适的预算，避免过度计算和过于严格的约束。

CoT压缩通过识别重要令牌并消除不必要的令牌或推理步骤，增强推理经济性。这些方法可分为两类：

显式压缩直接强制模型生成更简洁的推理，通过在精心策划的数据集上进行微调或提供特定演示。
隐式压缩将多个推理令牌或步骤映射到连续空间，实现更紧凑的表示。

架构优化

系统1和系统2合作使模型能够在快速直观推理和缓慢深度处理之间动态选择，优化效率。实现方式包括：

单模型路由赋予一个模型根据难度信号在快速(系统1)和缓慢(系统2)推理方法之间切换的能力。
多模型协作采用草稿-验证范式，如推测解码，先高效生成多个令牌候选，然后并行验证。
知识蒸馏将更大、更复杂模型(系统2)的知识转移到更小、更高效的模型(系统1)。

自适应激活参数通过递归利用中间层或跳过一些中间层，优化模型深度和推理过程中的资源分配，平衡性能和计算成本：

递归层使LLMs在发出令牌前执行任意多次计算，是相对较小的LLMs增加层数的简单解决方案。
动态深度利用模型剪枝和稀疏模型进行高效推理，验证LLMs并非所有层在推理过程中都是必要的。

推理经济的优化：测试时方法

大型语言模型的推理经济学：平衡性能与计算成本的新范式-AI.x社区推理经济的测试时优化方法

输入端优化

解码前的自适应预算分配是一种在解码前决定问题计算预算并强制LLMs遵循约束的方法：

预算预测考虑问题对推理LLM的难度，估计和预测解决问题所需的计算量。
预算约束生成在提示中指示长度约束，指导LLMs在满足约束的同时给出响应。

输出端优化

自适应算法选择探索测试时算法的自适应选择，尽管在高效思考方面的研究相对有限。一些工作自适应调整测试时算法的参数，可能用于实现算法确定。研究表明，最优设置可以实现比PRM best-of-N方法高4倍的效率。

解码期间的自适应预算分配包括三种主要方法：

提前停止利用LLMs的自评估能力决定当前解决方案是否足够好，或在达到一致性率时停止采样。
带剪枝的搜索在搜索过程中剪枝低质量分支，保留高质量分支，节省计算资源。
约束解码利用人类观察到的行为设计强制解码范式，解决LRMs的假思考和过度谨慎行为。

未来展望与开放挑战

高效多模态推理

多模态大型语言模型(MLLMs)在各种多模态推理任务中展示了令人期待的能力。当前高效多模态推理的方法主要集中在MLLMs本身的改进上，包括模型架构优化和高效视觉技术的采用。然而，多模态(长)推理效率的评估和有针对性的优化仍处于初级阶段。

高效智能体推理

LRMs的进步也为AI智能体带来了显著的性能提升。近期研究越来越关注在智能体系统中利用长推理能力，将其与检索、工具增强、领域知识整合等辅助组件结合，突破性能边界。然而，LRMs在交互环境中的有效性有限，表现为"过度思考"现象，需要探索混合LLM-LRM配置来优化智能体性能。

评估指标与基准

随着长推理的普及和过度推理问题的加剧，研究者开始开发专门的基准和指标来定量衡量推理效率。例如，DNA Bench揭示了当前LRMs的脆弱性，表明LRMs生成的不必要令牌多达70倍，并在非推理模型能高效处理的任务上失败。其他研究引入了基于结果和基于过程的效率指标，揭示了LRMs在简单问题上的过度思考和在复杂问题上的思考不足问题。

LRMs的可解释性

研究黑盒LLMs的可解释性一直是一个备受关注的话题。特别是，LRMs通过RL自我探索，展示了与人类博士生相当的推理能力，但其实现这种性能的机制仍然神秘。当前对LRMs的研究往往集中在行为分析上，如观察过度谨慎或假思考行为，然后追溯后训练算法或测试时方法。然而，了解这些模型内部工作原理，探索LRMs的思维模式，识别其缺陷，并为进一步改进提供方向，这些都至关重要。

结论

本文系统地研究了实现大型推理模型推理经济的挑战和解决方案，强调了在保持性能的同时提高计算效率的紧迫需求。通过分析根本原因、观察现象、关键挑战和新兴解决方案，本文为实现LLMs的高效推理提供了结构化路线图和可行策略。

推理经济的概念不仅是当前研究的综合，也是对未来研究的呼吁，强调开发更可持续、可扩展的模型的重要性，这些模型不仅能有效推理，还能高效推理。随着LLMs继续演进，平衡推理深度与计算效率将成为实现真正实用AI系统的关键。

参考资源

GitHub：https://github.com/DevoAllen/Awesome-Reasoning-Economy-Papers

论文：https://arxiv.org/abs/2503.24377

本文转载自顿数AI，作者：小颂

标签

大型语言

模型

平衡性能

51CTO

51CTO博客

51CTO学堂