从想太多到想不透？DeepSeek-R1等长推理模型也存在「思考不足」问题-51CTO.COM

本文将介绍首个关于长推理模型 “思考不足” 现象的工作。该工作由腾讯 AI Lab 与苏州大学、上海交通大学团队共同完成。本文的通讯作者为涂兆鹏，腾讯专家研究员，研究方向为深度学习和大模型，在国际顶级期刊和会议上发表学术论文一百余篇，引用超过 9000 次。担任 SCI 期刊 NeuroComputing 副主编，多次担任 ACL、EMNLP、ICLR 等国际顶级会议领域主席。第一作者为苏州大学博士生王越，腾讯 AI Lab 高级研究员刘秋志、徐嘉豪、梁添，以及上海交通大学博士生陈星宇、何志威。

论文题目：Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
论文地址：https://arxiv.org/pdf/2501.18585

背景与动机

长推理模型（Long Reasoning Models），如 OpenAI o1 [1]、QwQ-32B-Preview [2]、 DeepSeek-R1-671B [3] 和 Kimi K1.5 [4] 等，因其展现出类似人类的深度思考能力而备受关注。这些模型通过长时间推理（Inference-Time Scaling），能够在解码阶段不断思考并尝试新的思路来优化自身的答案质量。然而，长推理模型在推理过程中所有的思考是否高效，这一问题仍未得到充分探索。

此前，腾讯 AI Lab 的研究团队发现，长推理模型在面对简单问题时，其思考行为会出现大量重复，从而浪费大量计算资源 [5]（o1 也会「想太多」？腾讯 AI Lab 与上海交大揭秘 o1 模型过度思考问题）。而在面对难题时，长推理模型的思考模式是否高效依然是一个疑问。基于此，该研究团队进一步深入研究，试图揭示长推理模型在复杂问题上的表现及其潜在问题。

思考不足是长推理模型的 “注意力缺陷多动障碍”

研究团队的最新研究显示，长推理模型在推理过程中往往频繁地进行思路跳转，无法将注意力集中在一个正确的思路上并深入思考，从而得到正确答案。研究团队首先将 “思路（thought）” 定义为模型在推理策略中产生的中间认知步骤。长推理模型常常通过使用 “alternatively” 等术语来切换推理思路。例如，在下图所示的例子中，模型可能会从代数操作转向几何解释，再到优化策略。这种思路切换使得长推理模型能够更广泛地探索潜在的解决方案，展示了其在解决复杂问题时的灵活性。

研究人员统计了在 MATH500 测试集的不同难度级别下，生成回答时的平均思路和 token 数量：

显然，随着难度增加，所有模型产生的推理思路也有所增多，并且这一趋势与生成 token 数量的增长一致。这表明，随着问题复杂性的增加，模型更倾向于频繁切换思路，从而能够动态调整推理过程，以应对更具挑战性的问题。

那么，长推理模型是否会在思路切换的过程中提升其准确率呢？围绕这一问题，研究团队在 AIME24、Math500-Hard 和 GPQA Diamond 等测试集上，对正确回答和错误回答的平均思路数量以及 token 数量进行了深入分析，结果如下图所示：

相较于正确答案，长推理模型在错误回答中往往会出现更多的推理思路切换。这导致了回答长度显著增长，但准确性却未能相应提升。平均而言，长推理模型在 AIME24 上的错误回答中因频繁思路切换，生成的 token 数量比正确回答多出 225%，思路数量增加了 418%。相比之下，传统的 LLM（如 Qwen-Math-72B 和 Llama3.3-79B）在正确与错误回答之间的回答长度没有显著差异。

这一趋势表明，尽管模型被设计为动态调整其认知过程来解决问题，但更频繁的思路切换并不一定能提升准确性。换句话说，在处理难题时，长推理模型也存在 “注意力缺陷多动障碍” 的问题。研究团队将这种现象命名为 “思考不足”（Underthinking），即长推理模型在推理过程中频繁地进行思路跳转，无法将注意力集中在一个正确的思路上并深入思考，从而得到正确答案。实际上，模型可能在消耗额外计算资源（通过增加生成的 token 体现）时，未能提供更精确的解决方案。这些发现表明，在面对复杂问题时，除了探索额外的认知途径外，更需要以更有针对性和高效的方式进行操作，才能在推理复杂的问题时提升准确性。

量化 “思考不足”

研究团队认为，频繁切换思路而得出错误答案的行为，可能源于以下两个原因：一是真正的思考不足，即模型虽然找到了一条有希望的思路，但未能持续深入地坚持下去；二是对问题缺乏深入理解，从而盲目探索各种无效的方法。

为了进一步厘清这些可能性，研究团队提出了一个评估框架，用于评估一条被放弃的推理路径是否足以得出正确的答案。通过关注模型是否能够持续遵循和深化一条 “看起来有希望的思路”，可以识别思考不足的情况。具体而言，研究团队使用 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B 来判断一个思路是否能得到正确答案。

为了验证模型回答中的初步想法是否正确，下图展示了在错误回答中不同位置思路的正确比例。

结果显示，在各种模型的初步想法中，相当一部分的解题思路是正确的，但遗憾的是，模型并没有深入思考这些解题思路，而是过早地放弃了。这一现象表明，模型需要增强持续深入且准确地探索特定推理路径的能力，而不是轻易转向其他思路。

此外，研究团队还分析了不同模型的错误回答中正确思路比例的分布情况，如下图所示：

观察发现，超过 70% 的错误回答中至少包含一个正确的思路。此外，在这些回答中，有超过 50% 的回答其正确思路的比例达到 10% 以上。这表明，虽然长推理模型能够成功找到正确的推理思路，但它们往往难以沿着这些路径持续深入，进而得出正确的结论。这一现象凸显了鼓励模型保持并拓展其最初正确思路的重要性，以便将这些正确思路整合为准确的最终答案。

基于上述观察结果，研究团队提出了第一个针对长推理模型思考不足的指标（Underthinking Score），表示为。该指标的计算公式为：

其中，N 是测试集中的错题数量，是第 i 个错题的回答 token 数量，是从该回答开始到第一个正确想法为止的 token 数量（包括第一个正确想法）。如果第 i 个回答中没有正确的思路，则，表示模型对该问题缺乏理解，因此无法认为是 “思考不足”。直观地说，如果一个模型在回答过程中最初产生了正确的思路，但随后转向其他思路并最终未能得出正确答案，那么此后生成的 token 对于最终达到正确答案并无实质性贡献。这种情况下，由于缺乏足够的思考深度，模型的推理过程被认为是低效的。具体而言，值低表示更高的推理效率，这意味着在错误回答中，有更大比例的 token 能够为正确思路的形成提供支持；值高表示较低的推理效率，意味着有更大比例的 token 未能有效助力于正确思路的生成，即模型可能因频繁切换思路而生成大量冗余或不相关的 token。

借助这一指标，研究人员能够定量地评估模型在错误回答中的推理效率。下表展示了不同模型的准确率（越高性能越强）和思考不足得分（越小越能充分思考）：

结果表明，单纯增大模型尺寸并不能避免思考不足，模型准确率的提升也不一定会减少该现象。由此可见，我们需要深入探索思考不足这一复杂现象，从而在训练模型的过程中，不仅使其能够给出正确的答案，还能具备高效的推理能力。

缓解思考不足：引入思路转换惩罚

为了缓解长推理模型的思考不足现象，研究团队提出了一种惩罚思路转换的解码策略，称为 “Thought Switching Penalty”（TIP）。该策略通过在生成过程中对思路切换施加惩罚，鼓励模型在深入探索每个推理路径后再考虑其他替代方案。

在标准的解码过程中，在位置 t 生成 token v 的概率是通过对输出层的 logits 使用 softmax 函数计算的：

其中是位置 t 关于 token v 的 logit（未归一化的分数）。为了鼓励模型在切换思路之前更深入地探索当前思路，研究团队引入了一个对与思路转换相关的表达惩罚。具体而言，设是与思路切换相关的词汇集合（例如，“alternatively”），作者们修改了 logits 如下：

其中：（惩罚强度）是一个控制对思路切换标记施加惩罚强度的参数。较大的会导致这些词语的 logits 减少更多，使它们被选中的可能性降低；（惩罚持续时间）指定了从思路开始位置起的惩罚生效的位置数。较大的会延长惩罚的范围，进一步阻止过早的思路切换；当时，惩罚被禁用，解码过程退化为标准解码算法。

调整后的 logits减少了在指定窗口内生成思路切换标记的概率，从而鼓励模型在继续扩展当前思路之前不进行切换。新的概率分布变为：

TIP 策略通过惩罚机制抑制模型生成思路转换相关的词语，从而鼓励模型在生成文本时保持其原始的推理路径，并进行更深入的思考，避免频繁的策略切换和表面化的推理模式。下图展示了 QwQ-32B-Preview 在加入了 TIP 策略之后的结果：

结果显示，通过引入 TIP 策略，即使不进行模型微调也能在 MATH500-Hard、GPQA Diamond 和 AIME2024 上获得准确率提升并减少思考不足。

总结

腾讯 AI Lab 与苏州大学、上海交通大学联合团队最新发现，长推理模型也存在思考不足问题。具体体现为长推理模型在推理过程中频繁地进行思路跳转，无法将注意力集中在一个正确的思路上并深入思考，从而得到正确答案。研究团队将这种现象命名为 “思考不足”（Underthinking）。

研究团队首先观察到长推理模型频繁切换思路的现象，并进一步发现这一现象由思考不足导致。为了定量评估思路切换的问题，研究团队引入了一种新颖的思考不足指标，为推理效率低下提供了量化评估框架。同时，研究团队提出了一种缓解思考不足的简单有效方案 —— 带有思路切换惩罚（Thought Switching Penalty，TIP）的解码方法。该方法鼓励模型在考虑替代方案之前，彻底探索每一条推理思路，从而无需额外的微调就能提高模型的准确性。

这项研究不仅揭示了长推理模型在推理过程中的不足之处，还提供了一种实用的解决方案，有助于显著提升模型在处理复杂问题时的表现。展望未来，研究者将继续探索模型中的自适应机制，以实现对思路转变的自我调节，进一步提高长推理模型的推理效率。