从想太多到想不透?DeepSeek-R1等长推理模型也存在「思考不足」问题

人工智能 新闻
腾讯 AI Lab 与苏州大学、上海交通大学联合团队最新发现,长推理模型也存在思考不足问题。

本文将介绍首个关于长推理模型 “思考不足” 现象的工作。该工作由腾讯 AI Lab 与苏州大学、上海交通大学团队共同完成。本文的通讯作者为涂兆鹏,腾讯专家研究员,研究方向为深度学习和大模型,在国际顶级期刊和会议上发表学术论文一百余篇,引用超过 9000 次。担任 SCI 期刊 NeuroComputing 副主编,多次担任 ACL、EMNLP、ICLR 等国际顶级会议领域主席。第一作者为苏州大学博士生王越,腾讯 AI Lab 高级研究员刘秋志、徐嘉豪、梁添,以及上海交通大学博士生陈星宇、何志威。

图片

  • 论文题目:Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
  • 论文地址:https://arxiv.org/pdf/2501.18585

背景与动机

长推理模型(Long Reasoning Models),如 OpenAI o1 [1]、QwQ-32B-Preview [2]、 DeepSeek-R1-671B [3] 和 Kimi K1.5 [4] 等,因其展现出类似人类的深度思考能力而备受关注。这些模型通过长时间推理(Inference-Time Scaling),能够在解码阶段不断思考并尝试新的思路来优化自身的答案质量。然而,长推理模型在推理过程中所有的思考是否高效,这一问题仍未得到充分探索。

此前,腾讯 AI Lab 的研究团队发现,长推理模型在面对简单问题时,其思考行为会出现大量重复,从而浪费大量计算资源 [5](o1 也会「想太多」?腾讯 AI Lab 与上海交大揭秘 o1 模型过度思考问题)。而在面对难题时,长推理模型的思考模式是否高效依然是一个疑问。基于此,该研究团队进一步深入研究,试图揭示长推理模型在复杂问题上的表现及其潜在问题。

思考不足是长推理模型的 “注意力缺陷多动障碍”

研究团队的最新研究显示,长推理模型在推理过程中往往频繁地进行思路跳转,无法将注意力集中在一个正确的思路上并深入思考,从而得到正确答案。研究团队首先将 “思路(thought)” 定义为模型在推理策略中产生的中间认知步骤。长推理模型常常通过使用 “alternatively” 等术语来切换推理思路。例如,在下图所示的例子中,模型可能会从代数操作转向几何解释,再到优化策略。这种思路切换使得长推理模型能够更广泛地探索潜在的解决方案,展示了其在解决复杂问题时的灵活性。

图片

研究人员统计了在 MATH500 测试集的不同难度级别下,生成回答时的平均思路和 token 数量:

图片

显然,随着难度增加,所有模型产生的推理思路也有所增多,并且这一趋势与生成 token 数量的增长一致。这表明,随着问题复杂性的增加,模型更倾向于频繁切换思路,从而能够动态调整推理过程,以应对更具挑战性的问题。

那么,长推理模型是否会在思路切换的过程中提升其准确率呢?围绕这一问题,研究团队在 AIME24、Math500-Hard 和 GPQA Diamond 等测试集上,对正确回答和错误回答的平均思路数量以及 token 数量进行了深入分析,结果如下图所示:

图片

图片

相较于正确答案,长推理模型在错误回答中往往会出现更多的推理思路切换。这导致了回答长度显著增长,但准确性却未能相应提升。平均而言,长推理模型在 AIME24 上的错误回答中因频繁思路切换,生成的 token 数量比正确回答多出 225%,思路数量增加了 418%。相比之下,传统的 LLM(如 Qwen-Math-72B 和 Llama3.3-79B)在正确与错误回答之间的回答长度没有显著差异。

这一趋势表明,尽管模型被设计为动态调整其认知过程来解决问题,但更频繁的思路切换并不一定能提升准确性。换句话说,在处理难题时,长推理模型也存在 “注意力缺陷多动障碍” 的问题。研究团队将这种现象命名为 “思考不足”(Underthinking),即长推理模型在推理过程中频繁地进行思路跳转,无法将注意力集中在一个正确的思路上并深入思考,从而得到正确答案。实际上,模型可能在消耗额外计算资源(通过增加生成的 token 体现)时,未能提供更精确的解决方案。这些发现表明,在面对复杂问题时,除了探索额外的认知途径外,更需要以更有针对性和高效的方式进行操作,才能在推理复杂的问题时提升准确性。

量化 “思考不足”

研究团队认为,频繁切换思路而得出错误答案的行为,可能源于以下两个原因:一是真正的思考不足,即模型虽然找到了一条有希望的思路,但未能持续深入地坚持下去;二是对问题缺乏深入理解,从而盲目探索各种无效的方法。

为了进一步厘清这些可能性,研究团队提出了一个评估框架,用于评估一条被放弃的推理路径是否足以得出正确的答案。通过关注模型是否能够持续遵循和深化一条 “看起来有希望的思路”,可以识别思考不足的情况。具体而言,研究团队使用 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B 来判断一个思路是否能得到正确答案。

为了验证模型回答中的初步想法是否正确,下图展示了在错误回答中不同位置思路的正确比例。

图片

结果显示,在各种模型的初步想法中,相当一部分的解题思路是正确的,但遗憾的是,模型并没有深入思考这些解题思路,而是过早地放弃了。这一现象表明,模型需要增强持续深入且准确地探索特定推理路径的能力,而不是轻易转向其他思路。

此外,研究团队还分析了不同模型的错误回答中正确思路比例的分布情况,如下图所示:

图片

观察发现,超过 70% 的错误回答中至少包含一个正确的思路。此外,在这些回答中,有超过 50% 的回答其正确思路的比例达到 10% 以上。这表明,虽然长推理模型能够成功找到正确的推理思路,但它们往往难以沿着这些路径持续深入,进而得出正确的结论。这一现象凸显了鼓励模型保持并拓展其最初正确思路的重要性,以便将这些正确思路整合为准确的最终答案。

基于上述观察结果,研究团队提出了第一个针对长推理模型思考不足的指标(Underthinking Score),表示为图片。该指标的计算公式为:

图片

其中,N 是测试集中的错题数量,图片是第 i 个错题的回答 token 数量,图片是从该回答开始到第一个正确想法为止的 token 数量(包括第一个正确想法)。如果第 i 个回答中没有正确的思路,则 图片 ,表示模型对该问题缺乏理解,因此无法认为是 “思考不足”。直观地说,如果一个模型在回答过程中最初产生了正确的思路,但随后转向其他思路并最终未能得出正确答案,那么此后生成的 token 对于最终达到正确答案并无实质性贡献。这种情况下,由于缺乏足够的思考深度,模型的推理过程被认为是低效的。具体而言,图片值低表示更高的推理效率,这意味着在错误回答中,有更大比例的 token 能够为正确思路的形成提供支持;图片值高表示较低的推理效率,意味着有更大比例的 token 未能有效助力于正确思路的生成,即模型可能因频繁切换思路而生成大量冗余或不相关的 token。

借助这一指标,研究人员能够定量地评估模型在错误回答中的推理效率。下表展示了不同模型的准确率(越高性能越强)和思考不足得分图片(越小越能充分思考):

图片

结果表明,单纯增大模型尺寸并不能避免思考不足,模型准确率的提升也不一定会减少该现象。由此可见,我们需要深入探索思考不足这一复杂现象,从而在训练模型的过程中,不仅使其能够给出正确的答案,还能具备高效的推理能力。

缓解思考不足:引入思路转换惩罚

为了缓解长推理模型的思考不足现象,研究团队提出了一种惩罚思路转换的解码策略,称为 “Thought Switching Penalty”(TIP)。该策略通过在生成过程中对思路切换施加惩罚,鼓励模型在深入探索每个推理路径后再考虑其他替代方案。

在标准的解码过程中,在位置 t 生成 token v 的概率是通过对输出层的 logits 使用 softmax 函数计算的:

图片

其中 图片是位置 t 关于 token v 的 logit(未归一化的分数)。为了鼓励模型在切换思路之前更深入地探索当前思路,研究团队引入了一个对与思路转换相关的表达惩罚。具体而言,设图片 是与思路切换相关的词汇集合(例如,“alternatively”),作者们修改了 logits 如下:

图片

其中:图片(惩罚强度)是一个控制对思路切换标记施加惩罚强度的参数。较大的图片会导致这些词语的 logits 减少更多,使它们被选中的可能性降低;图片(惩罚持续时间)指定了从思路开始位置 图片起的惩罚生效的位置数。较大的图片会延长惩罚的范围,进一步阻止过早的思路切换;当图片时,惩罚被禁用,解码过程退化为标准解码算法。

调整后的 logits图片减少了在指定窗口内生成思路切换标记的概率,从而鼓励模型在继续扩展当前思路之前不进行切换。新的概率分布变为:

图片

TIP 策略通过惩罚机制抑制模型生成思路转换相关的词语,从而鼓励模型在生成文本时保持其原始的推理路径,并进行更深入的思考,避免频繁的策略切换和表面化的推理模式。下图展示了 QwQ-32B-Preview 在加入了 TIP 策略之后的结果:

图片

结果显示,通过引入 TIP 策略,即使不进行模型微调也能在 MATH500-Hard、GPQA Diamond 和 AIME2024 上获得准确率提升并减少思考不足

总结

腾讯 AI Lab 与苏州大学、上海交通大学联合团队最新发现,长推理模型也存在思考不足问题。具体体现为长推理模型在推理过程中频繁地进行思路跳转,无法将注意力集中在一个正确的思路上并深入思考,从而得到正确答案。研究团队将这种现象命名为 “思考不足”(Underthinking)。

研究团队首先观察到长推理模型频繁切换思路的现象,并进一步发现这一现象由思考不足导致。为了定量评估思路切换的问题,研究团队引入了一种新颖的思考不足指标,为推理效率低下提供了量化评估框架。同时,研究团队提出了一种缓解思考不足的简单有效方案 —— 带有思路切换惩罚(Thought Switching Penalty,TIP)的解码方法。该方法鼓励模型在考虑替代方案之前,彻底探索每一条推理思路,从而无需额外的微调就能提高模型的准确性。

这项研究不仅揭示了长推理模型在推理过程中的不足之处,还提供了一种实用的解决方案,有助于显著提升模型在处理复杂问题时的表现。展望未来,研究者将继续探索模型中的自适应机制,以实现对思路转变的自我调节,进一步提高长推理模型的推理效率。

责任编辑:张燕妮 来源: 机器之心
相关推荐

2025-02-12 14:09:31

DeepSeekChatGPTAPI

2025-02-13 08:51:23

DeepSeek大模型

2025-01-08 13:08:55

2025-02-08 14:03:25

2025-02-12 12:45:59

2025-02-10 06:50:00

AIDeepSeek推理模型

2020-06-29 19:04:01

iOS 14Bug苹果

2025-02-03 14:17:27

2012-06-04 13:06:05

微软Windows 8

2025-01-15 13:01:07

2025-02-14 09:20:00

模型数据训练

2025-02-08 09:44:11

DeepSeekAI模型

2025-02-03 15:50:44

2025-01-21 11:53:53

2024-09-24 11:01:03

2025-02-08 11:44:03

2025-02-14 09:21:04

2025-01-21 09:36:51

2025-02-13 01:00:00

点赞
收藏

51CTO技术栈公众号