大推理模型DeepSeek-R1深度解读:成本降低95%,推动语言模型推理效率新高度 精华
以开源技术挑战领先 AI 供应商而闻名的中国 AI 初创公司 DeepSeek 又投下了一颗重磅炸弹:一款名为 DeepSeek - R1 的新型开源推理大语言模型(LLM)。除了在基准测试中性能几乎与 OpenAI 的 o1 相匹配外,新的 DeepSeek - R1 成本也非常低。具体来说,OpenAI o1 每百万输入令牌成本为 15 美元,每百万输出令牌成本为 60 美元,而基于 R1 模型的 DeepSeek Reasoner 每百万输入令牌成本为 0.55 美元,每百万输出令牌成本为 2.19 美元。开源 DeepSeek - R1 采用纯强化学习达到 OpenAI o1 的水平,成本却低 95%。
在人工智能领域,大语言模型发展迅速,但在推理能力方面还有提升空间。之前很多方法都没能达到像 OpenAI o1 系列模型那样的推理水平。本文的研究就是想通过新的强化学习和训练方法来提高模型的推理能力,开发出了 DeepSeek-R1-Zero 和 DeepSeek-R1 模型,并且在很多任务上取得了很好的成绩,还把大模型的能力蒸馏到小模型上,为后续研究和应用提供了新的思路和模型基础,对推动人工智能语言模型的发展有重要意义。
我们详细翻译解读最新论文,文末有相关信息。
本文主要围绕 DeepSeek 公司开发的 DeepSeek-R1-Zero 和 DeepSeek-R1 模型展开。首先介绍了研究背景,即大语言模型快速发展但推理能力提升仍有挑战,现有方法未达 OpenAI o1 系列模型水平。接着阐述模型训练方法,DeepSeek-R1-Zero 基于基础模型直接用强化学习训练,采用 GRPO 算法、规则奖励系统和特定模板,训练中展现出性能提升、自我进化及“顿悟时刻”,但存在可读性和语言混合问题;DeepSeek-R1 则先利用冷启动数据微调,再进行强化学习,包括推理导向训练、拒绝采样与监督微调及全场景强化学习等阶段。还介绍了从 DeepSeek-R1 向小模型蒸馏的方法及效果。实验部分在多基准测试上评估模型,结果显示 DeepSeek-R1 在推理、知识和其他任务上表现出色,蒸馏模型也优于部分已有模型。最后讨论了蒸馏与强化学习的对比及一些不成功尝试,并指出模型未来研究方向如提升通用能力、解决语言混合等问题。
摘要&&解读
我们推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是通过大规模强化学习(RL)训练而成的模型,无需监督微调(SFT)作为预备步骤,展现出了卓越的推理能力。通过RL,DeepSeek-R1-Zero自然地呈现出众多强大且有趣的推理行为。然而,它也面临着诸如可读性差和语言混合等挑战。为了解决这些问题并进一步提升推理性能,我们引入了DeepSeek-R1,它在RL之前结合了多阶段训练和冷启动数据。DeepSeek-R1在推理任务上的性能与OpenAI-o1-1217相当。为了支持研究社区,我们开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama从DeepSeek-R1蒸馏得到的六个密集模型(1.5B、7B、8B、14B、32B、70B)。
- 研究背景:近年来大语言模型快速迭代,但在推理能力方面仍有提升空间。现有方法如基于过程的奖励模型、强化学习、搜索算法等在提升推理性能上未达 OpenAI o1 系列模型水平,且在测试时缩放等方面存在问题,在此背景下本文展开研究。
- 研究贡献:
首次验证了可通过纯强化学习激励大语言模型推理能力,无需监督微调,开发出 DeepSeek-R1-Zero 模型。
提出包含冷启动数据和多阶段训练的 DeepSeek-R1 训练管道,提升模型性能与实用性。
证明可将大模型推理模式蒸馏到小模型,开源相关模型及数据,为研究社区提供资源。
- 实现设计:
DeepSeek-R1-Zero 采用 GRPO 算法,基于规则奖励系统(准确性和格式奖励),用特定模板训练,引导模型生成推理过程和答案。
DeepSeek-R1 先收集冷启动数据微调基础模型,再进行推理导向强化学习(引入语言一致性奖励),之后通过拒绝采样和监督微调扩充数据并训练模型,最后进行全场景强化学习进一步优化。
蒸馏技术是用 DeepSeek-R1 生成的数据对 Qwen 和 Llama 等开源模型进行监督微调。
- 实验结果:
DeepSeek-R1 在多个推理任务(如 AIME 2024、MATH-500)、知识基准测试(如 MMLU、GPQA Diamond)及其他任务(如写作、问答等)上表现优异,与 OpenAI-o1-1217 相当或更优。
蒸馏模型在推理相关基准测试上成绩突出,如 DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 等测试中优于部分已有模型。
- 关键词:强化学习;推理能力;语言模型;蒸馏
一、引言
近年来,大语言模型(LLMs)经历了快速的迭代和演进(Anthropic,2024;Google,2024;OpenAI,2024a),逐渐缩小了与通用人工智能(AGI)的差距。
最近,后训练已成为完整训练流程的重要组成部分。它已被证明可以提高推理任务的准确性、与社会价值观对齐并适应用户偏好,而且相对于预训练所需的计算资源相对较少。在推理能力方面,OpenAI的o1(OpenAI,2024b)系列模型率先通过增加思维链(Chain-of-Thought)推理过程的长度引入了推理时缩放。这种方法在数学、编码和科学推理等各种推理任务中取得了显著的改进。然而,有效的测试时缩放的挑战仍然是研究社区的一个开放问题。先前的一些工作探索了各种方法,包括基于过程的奖励模型(Lightman等人,2023;Uesato等人,2022;Wang等人,2023)、强化学习(Kumar等人,2024)以及蒙特卡洛树搜索和束搜索等搜索算法(Feng等人,2024;Trinh等人,2024;Xin等人,2024)。然而,这些方法都没有达到与OpenAI的o1系列模型相当的通用推理性能。
在本文中,我们朝着使用纯强化学习(RL)提高语言模型推理能力迈出了第一步。我们的目标是探索LLMs在没有任何监督数据的情况下发展推理能力的潜力,重点关注它们通过纯RL过程的自我进化。具体来说,我们使用DeepSeek-V3-Base作为基础模型,并采用GRPO(Shao等人,2024)作为RL框架来提高模型在推理方面的性能。在训练过程中,DeepSeek-R1-Zero自然地呈现出许多强大而有趣的推理行为。经过数千次RL步骤后,DeepSeek-R1-Zero在推理基准测试中表现出色。例如,在AIME 2024上的pass@1分数从15.6%提高到了71.0%,通过多数投票,分数进一步提高到86.7%,与OpenAI-o1-0912的性能相匹配。
然而,DeepSeek-R1-Zero遇到了诸如可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了DeepSeek-R1,它结合了少量冷启动数据和多阶段训练管道。具体来说,我们首先收集数千个冷启动数据来微调DeepSeek-V3-Base模型。在此之后,我们像训练DeepSeek-R1-Zero一样进行面向推理的RL。在RL过程接近收敛时,我们通过对RL检查点进行拒绝采样,并结合来自DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据来创建新的SFT数据,然后重新训练DeepSeek-V3-Base模型。使用新数据进行微调后,检查点再经过一个RL过程,考虑来自所有场景的提示。经过这些步骤,我们获得了一个称为DeepSeek-R1的检查点,其性能与OpenAI-o1-1217相当。
我们进一步探索了从DeepSeek-R1到较小密集模型的蒸馏。使用Qwen2.5-32B(Qwen,2024b)作为基础模型,直接从DeepSeek-R1进行蒸馏的效果优于在其上应用RL。这表明较大基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏后的Qwen和Llama(Dubey等人,2024)系列。值得注意的是,我们蒸馏得到的14B模型远远优于最先进的开源QwQ-32B-Preview(Qwen,2024a),并且蒸馏得到的32B和70B模型在密集模型的推理基准测试中创下了新纪录。
1.1 贡献
- 基础模型的大规模强化学习:我们直接将强化学习(RL)应用于基础模型,而无需依赖监督微调(SFT)作为初步步骤。这种方法允许模型探索用于解决复杂问题的思维链(CoT),从而产生了DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了诸如自我验证、反思和生成长CoT等能力,为研究社区标志着一个重要的里程碑。值得注意的是,这是首次公开验证LLMs的推理能力可以纯粹通过RL激励,而无需SFT。这一突破为该领域的未来发展铺平了道路。
- DeepSeek-R1的训练管道:我们介绍了开发DeepSeek-R1的管道。该管道包括两个旨在发现改进的推理模式并与人类偏好对齐的RL阶段,以及两个作为模型推理和非推理能力种子的SFT阶段。我们相信该管道将通过创建更好的模型使行业受益。
- 蒸馏:小型模型也可以很强大:我们证明了较大模型的推理模式可以蒸馏到较小模型中,与通过在小型模型上进行RL发现的推理模式相比,性能更好。开源的DeepSeek-R1及其API将有利于研究社区在未来蒸馏出更好的小型模型。
- 使用DeepSeek-R1生成的推理数据对多个密集模型进行微调:评估结果表明,蒸馏后的较小密集模型在基准测试中表现出色。DeepSeek-R1-Distill-Qwen-7B在AIME 2024上达到55.5%,超过了QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B在AIME 2024上得分为72.6%,在MATH-500上为94.3%,在LiveCodeBench上为57.2%。这些结果显著优于先前的开源模型,并且与o1-mini相当。我们向社区开源了基于Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B检查点。
1.2 评估结果总结
- 推理任务:(1)DeepSeek-R1在AIME 2024上的Pass@1分数达到79.8%,略高于OpenAI-o1-1217。在MATH-500上,它获得了令人印象深刻的97.3%的分数,与OpenAI-o1-1217相当,并且显著优于其他模型。(2)在编码相关任务上,DeepSeek-R1在代码竞赛任务中表现出专家水平,在Codeforces上达到2029的Elo评级,超过了比赛中96.3%的人类参与者。在工程相关任务上,DeepSeek-R1的表现略优于DeepSeek-V3,这可以帮助开发人员完成实际任务。
- 知识:在MMLU、MMLU-Pro和GPQA Diamond等基准测试中,DeepSeek-R1取得了出色的结果,在MMLU上的得分为90.8%,在MMLU-Pro上为84.0%,在GPQA Diamond上为71.5%,显著优于DeepSeek-V3。虽然在这些基准测试上它的性能略低于OpenAI-o1-1217,但DeepSeek-R1超过了其他闭源模型,展示了其在教育任务中的竞争优势。在事实基准测试SimpleQA上,DeepSeek-R1优于DeepSeek-V3,展示了其处理基于事实的查询的能力。在这个基准测试上,OpenAI-o1超过GPT-4o也呈现出类似的趋势。
- 其他:DeepSeek-R1在广泛的任务中也表现出色,包括创意写作、一般问答、编辑、总结等。它在AlpacaEval 2.0上实现了令人印象深刻的87.6%的长度控制胜率,在ArenaHard上的胜率为92.3%,展示了其智能处理非考试导向查询的强大能力。此外,DeepSeek-R1在需要长上下文理解的任务中表现出色,在长上下文基准测试上显著优于DeepSeek-V3。
二、方法
2.1 概述
先前的工作在很大程度上依赖于大量的监督数据来提高模型性能。在本研究中,我们证明了通过大规模强化学习(RL)可以显著提高推理能力,即使在不使用监督微调(SFT)作为冷启动的情况下也是如此。此外,通过包含少量冷启动数据可以进一步提高性能。在以下部分中,我们将介绍:(1)DeepSeek-R1-Zero,它直接将RL应用于基础模型而无需任何SFT数据;(2)DeepSeek-R1,它从使用数千个长思维链(CoT)示例微调的检查点开始应用RL;(3)将DeepSeek-R1的推理能力蒸馏到小型密集模型中。
2.2 DeepSeek-R1-Zero:基础模型上的强化学习
强化学习在推理任务中已被证明是非常有效的,正如我们之前的工作所表明的(Shao等人,2024;Wang等人,2023)。然而,这些工作在很大程度上依赖于监督数据,而收集这些数据是非常耗时的。在本节中,我们探索LLMs在没有任何监督数据的情况下发展推理能力的潜力,重点关注它们通过纯强化学习过程的自我进化。我们首先简要概述我们的强化学习算法,然后展示一些令人兴奋的结果,并希望这能为社区提供有价值的见解。
2.2.1 强化学习算法
用户和助手之间的对话。用户提出问题,助手解决问题。助手首先在脑海中思考推理过程,然后向用户提供答案。推理过程和答案分别包含在和标签内,即这里是推理过程这里是答案。
2.2.2 奖励建模
奖励是训练信号的来源,它决定了RL的优化方向。为了训练DeepSeek-R1-Zero,我们采用了基于规则的奖励系统,主要包括两种类型的奖励:
- 准确性奖励:准确性奖励模型评估响应是否正确。例如,对于具有确定性结果的数学问题,模型需要以指定的格式(例如,在框内)提供最终答案,以便能够基于规则可靠地验证正确性。同样,对于LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。
- 格式奖励:除了准确性奖励模型外,我们还采用了格式奖励模型,强制模型将其思考过程放在和标签之间。
在开发DeepSeek-R1-Zero时,我们没有应用结果或过程神经奖励模型,因为我们发现神经奖励模型在大规模强化学习过程中可能会遭受奖励破解问题,并且重新训练奖励模型需要额外的训练资源,这会使整个训练管道复杂化。
2.2.3 训练模板
为了训练DeepSeek-R1-Zero,我们设计了一个简单的模板,引导基础模型遵循我们指定的指令。如表1所示,这个模板要求DeepSeek-R1-Zero首先生成推理过程,然后是最终答案。我们有意将约束限制在这种结构格式上,避免任何特定内容的偏差,例如强制进行反思性推理或推广特定的问题解决策略,以确保我们能够准确观察模型在强化学习(RL)过程中的自然进展。
2.2.4 DeepSeek-R1-Zero的性能、自我进化过程和“顿悟时刻”DeepSeek-R1-Zero的性能:图2展示了DeepSeek-R1-Zero在AIME 2024基准测试中整个强化学习(RL)训练过程中的性能轨迹。如图所示,随着RL训练的推进,DeepSeek-R1-Zero的性能稳步且持续地提高。值得注意的是,AIME 2024上的平均pass@1分数显著提高,从最初的15.6%跃升至令人印象深刻的71.0%,达到了与OpenAI-o1-0912相当的性能水平。这一显著的改进凸显了我们的RL算法在随着时间优化模型性能方面的有效性。
- 与OpenAI的o1-0912模型的比较:表2提供了DeepSeek-R1-Zero和OpenAI的o1-0912模型在各种推理相关基准测试上的对比分析。结果表明,RL使DeepSeek-R1-Zero能够在无需任何监督微调数据的情况下获得强大的推理能力。这是一项值得注意的成就,因为它强调了模型仅通过RL就能有效学习和泛化的能力。此外,通过应用多数投票,DeepSeek-R1-Zero的性能可以进一步提高。例如,在AIME基准测试上应用多数投票时,DeepSeek-R1-Zero的性能从71.0%提升到86.7%,从而超过了OpenAI-o1-0912的性能。DeepSeek-R1-Zero在有和没有多数投票的情况下都能达到如此有竞争力的性能,凸显了其强大的基础能力以及在推理任务中进一步发展的潜力。
- 自我进化过程:DeepSeek-R1-Zero的自我进化过程是RL如何驱动模型自主提高推理能力的一个引人入胜的展示。通过直接从基础模型启动RL,我们可以在不受监督微调阶段影响的情况下密切监测模型的进展。这种方法清晰地展示了模型如何随时间演变,特别是在处理复杂推理任务的能力方面。
- 思考时间的增加:如图3所示,DeepSeek-R1-Zero在训练过程中的思考时间持续增加。这种改进不是外部调整的结果,而是模型内部的内在发展。DeepSeek-R1-Zero通过利用扩展的测试时计算自然地获得了解决日益复杂推理任务的能力。这种计算从生成数百到数千个推理标记不等,使模型能够更深入地探索和完善其思维过程。
- 复杂行为的出现:这种自我进化最显著的方面之一是随着测试时计算的增加出现了复杂的行为。例如,反思行为(模型重新审视和重新评估其先前步骤)以及探索替代问题解决方法等行为自发地出现。这些行为不是显式编程的,而是模型与强化学习环境相互作用的结果。这种自发的发展显著增强了DeepSeek-R1-Zero的推理能力,使其能够更高效、更准确地处理更具挑战性的任务。
- “顿悟时刻”:在DeepSeek-R1-Zero的训练过程中观察到的一个特别有趣的现象是“顿悟时刻”的出现。如表3所示,这个时刻出现在模型的一个中间版本中。在此阶段,DeepSeek - R1 - Zero通过重新评估其初始方法学会为一个问题分配更多的思考时间。这种行为不仅证明了模型推理能力的不断增长,也是强化学习如何产生意想不到的复杂结果的一个引人入胜的例子。
这个时刻不仅是模型的“顿悟时刻”,也是观察其行为的研究人员的“顿悟时刻”。它凸显了强化学习的力量和美妙之处:我们不是明确地教导模型如何解决问题,而只是提供正确的激励,它就能够自主地发展出先进的问题解决策略。“顿悟时刻”有力地提醒了我们强化学习在解锁人工系统新智能水平方面的潜力,为未来更自主和自适应的模型铺平了道路。
DeepSeek - R1 - Zero的缺点:尽管DeepSeek - R1 - Zero表现出强大的推理能力并自主发展出意想不到的强大推理行为,但它也面临着一些问题。例如,DeepSeek - R1 - Zero在可读性差和语言混合等方面存在困难。为了使推理过程更具可读性并与开放社区分享,我们探索了DeepSeek - R1,一种利用带有人类友好冷启动数据的强化学习的方法。
2.3 DeepSeek - R1:带有冷启动的强化学习
受DeepSeek - R1 - Zero有前景的结果启发,出现了两个自然的问题:1)通过纳入少量高质量数据作为冷启动,推理性能是否可以进一步提高或加速收敛?2)我们如何训练一个用户友好的模型,它不仅能生成清晰连贯的思维链(CoT),还能展示出强大的通用能力?为了解决这些问题,我们设计了一个训练DeepSeek - R1的管道。该管道由四个阶段组成,概述如下。
2.3.1 冷启动
与DeepSeek - R1 - Zero不同,为了防止RL训练从基础模型开始的早期不稳定冷启动阶段,对于DeepSeek - R1,我们构建并收集了少量长CoT数据来微调模型作为初始RL执行者。为了收集此类数据,我们探索了几种方法:使用带有长CoT示例的少样本提示、直接提示模型生成带有反思和验证的详细答案、收集DeepSeek - R1 - Zero的可读格式输出,并通过人工注释者的后处理来精炼结果。
在这项工作中,我们收集了数千个冷启动数据来微调DeepSeek - V3 - Base作为RL的起点。与DeepSeek - R1 - Zero相比,冷启动数据的优势包括:
- 可读性:DeepSeek - R1 - Zero的一个关键限制是其内容通常不适合阅读。响应可能混合多种语言或缺乏用于为用户突出显示答案的markdown格式。相比之下,在为DeepSeek - R1创建冷启动数据时,我们设计了一种可读模式,在每个响应的末尾包含一个总结,并过滤掉对读者不友好的响应。这里,我们将输出格式定义为|特殊标记|<推理过程>|特殊标记|<总结>,其中推理过程是查询的CoT,总结用于总结推理结果。
- 潜力:通过根据人类先验精心设计冷启动数据的模式,我们观察到相对于DeepSeek - R1 - Zero有更好的性能。我们相信迭代训练是推理模型的更好方法。
2.3.2 面向推理的强化学习
在冷启动数据上微调DeepSeek - V3 - Base之后,我们应用与DeepSeek - R1 - Zero中相同的大规模强化学习训练过程。这个阶段侧重于提高模型的推理能力,特别是在推理密集型任务中,如编码、数学、科学和逻辑推理,这些任务涉及定义明确且有清晰解决方案的问题。在训练过程中,我们观察到CoT经常出现语言混合的情况,特别是当RL提示涉及多种语言时。为了缓解语言混合的问题,我们在RL训练期间引入了语言一致性奖励,它计算为CoT中目标语言单词的比例。虽然消融实验表明这种对齐会导致模型性能略有下降,但这种奖励符合人类偏好,使其更具可读性。最后,我们通过直接将推理任务的准确性和语言一致性奖励相加来形成最终奖励。然后,我们对微调后的模型应用强化学习(RL)训练,直到它在推理任务上达到收敛。
2.3.3 拒绝采样和监督微调
当面向推理的RL收敛时,我们利用得到的检查点为下一轮收集SFT(监督微调)数据。与主要关注推理的初始冷启动数据不同,这个阶段纳入了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务中的能力。具体来说,我们生成数据并微调模型如下:
- 推理数据:我们整理推理提示,并通过从上述RL训练的检查点进行拒绝采样来生成推理轨迹。在先前阶段,我们只纳入了可以使用基于规则的奖励进行评估的数据。然而,在这个阶段,我们通过纳入额外的数据扩展了数据集,其中一些数据使用生成式奖励模型,通过将真实值和模型预测输入到DeepSeek - V3中进行判断。此外,由于模型输出有时混乱且难以阅读,我们过滤掉了混合语言的思维链、长段落和代码块。对于每个提示,我们采样多个响应并只保留正确的响应。总共,我们收集了大约60万个与推理相关的训练样本。
- 非推理数据:对于非推理数据,如写作、事实问答、自我认知和翻译,我们采用DeepSeek - V3管道并重用DeepSeek - V3的部分SFT数据集。对于某些非推理任务,我们在回答问题之前通过提示调用DeepSeek - V3生成潜在的思维链。然而,对于更简单的查询,如“hello”,我们在响应中不提供CoT。最后,我们总共收集了大约20万个与推理无关的训练样本。
我们使用上述约80万个样本的精选数据集对DeepSeek - V3 - Base进行了两个epoch的微调。
2.3.4 所有场景的强化学习
为了进一步使模型与人类偏好对齐,我们实施了一个二级强化学习阶段,旨在提高模型的帮助性和无害性,同时完善其推理能力。具体来说,我们使用奖励信号和多样化的提示分布组合来训练模型。对于推理数据,我们遵循DeepSeek - R1 - Zero中概述的方法,利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据,我们借助奖励模型在复杂和微妙的场景中捕捉人类偏好。我们基于DeepSeek - V3管道并采用类似的偏好对和训练提示分布。对于帮助性,我们专注于最终总结,确保评估强调响应对用户的效用和相关性,同时尽量减少对底层推理过程的干扰。对于无害性,我们评估模型的整个响应,包括推理过程和总结,以识别和减轻在生成过程中可能出现的任何潜在风险、偏差或有害内容。最终,奖励信号和多样化数据分布的整合使我们能够训练出一个在推理方面表现出色,同时优先考虑帮助性和无害性的模型。
2.4 蒸馏:赋予小型模型推理能力
为了使更高效的小型模型具备像DeepSeek - R1这样的推理能力,我们使用DeepSeek - R1整理的80万个样本直接对开源模型如Qwen(Qwen,2024b)和Llama(AI@Meta,2024)进行微调,如§2.3.3中所述。我们的研究结果表明,这种直接蒸馏方法显著增强了小型模型的推理能力。我们这里使用的基础模型是Qwen2.5 - Math - 1.5B、Qwen2.5 - Math - 7B、Qwen2.5 - 14B、Qwen2.5 - 32B、Llama - 3.1 - 8B和Llama - 3.3 - 70B - Instruct。我们选择Llama - 3.3是因为它的推理能力略优于Llama - 3.1。
对于蒸馏模型,我们只应用SFT,不包括RL阶段,尽管纳入RL可以显著提高模型性能。我们的主要目标是证明蒸馏技术的有效性,将RL阶段的探索留给更广泛的研究社区。
三、实验
- 基准测试:我们在MMLU(Hendrycks等人,2020)、MMLU - Redux(Gema等人,2024)、MMLU - Pro(Wang等人,2024)、C - Eval(Huang等人,2023)、CMMLU(Li等人,2023)、IFEval(Zhou等人,2023)、FRAMES(Krishna等人,2024)、GPQA Diamond(Rein等人,2023)、SimpleQA(OpenAI,2024c)、C - SimpleQA(He等人,2024)、SWE - Bench Verified(OpenAI,2024d)、Aider 1、LiveCodeBench(Jain等人,2024)(2024 - 08 – 2025 - 01)、Codeforces 2、中国高中数学奥林匹克(CNMO 2024)3和美国数学邀请赛2024(AIME 2024)(MAA,2024)等基准测试上评估模型。除了标准基准测试外,我们还使用LLMs作为评委在开放式生成任务上评估我们的模型。具体来说,我们遵循AlpacaEval 2.0(Dubois等人,2024)和Arena - Hard(Li等人,2024)的原始配置,它们使用GPT - 4 - Turbo - 1106作为评委进行成对比较。在这里,我们只将最终总结输入到评估中,以避免长度偏差。对于蒸馏模型,我们报告在AIME 2024、MATH - 500、GPQA Diamond、Codeforces和LiveCodeBench上的代表性结果。
- 评估提示:遵循DeepSeek - V3的设置,标准基准测试如MMLU、DROP、GPQA Diamond和SimpleQA使用来自simpleevals框架的提示进行评估。对于MMLU - Redux,我们在零样本设置中采用Zero - Eval提示格式(Lin,2024)。对于MMLU - Pro、C - Eval和CLUE - WSC,由于原始提示是少样本的,我们将提示稍微修改为零样本设置。少样本中的CoT可能会损害DeepSeek - R1的性能。其他数据集遵循其原始评估协议,使用其创建者提供的默认提示。对于代码和数学基准测试,HumanEval - Mul数据集涵盖八种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP和Bash)。LiveCodeBench上的模型性能使用CoT格式进行评估,数据收集时间为2024年8月至2025年1月。Codeforces数据集使用10个Div.2竞赛的问题以及专家制作的测试用例进行评估,然后计算预期评级和竞争对手的百分比。SWE - Bench验证结果通过无代理框架(Xia等人,2024)获得。AIDER相关基准测试使用“diff”格式进行测量。DeepSeek - R1在每个基准测试上的输出最多限制为32,768个标记。
- 基线:我们对几个强大的基线进行了全面评估,包括DeepSeek - V3、Claude - Sonnet - 3.5 - 1022、GPT - 4o - 0513、OpenAI - o1 - mini和OpenAI - o1 - 1217。由于在中国大陆访问OpenAI - o1 - 1217 API具有挑战性,我们根据官方报告报告其性能。对于蒸馏模型,我们还比较了开源模型QwQ - 32B - Preview(Qwen,2024a)。
- 生成设置:对于我们所有的模型,最大生成长度设置为32,768个标记。对于需要采样的基准测试,我们使用温度为0.6、top - p值为0.95,并为每个查询生成64个响应来估计pass@1。
3.1 DeepSeek - R1评估
对于以教育为导向的知识基准测试,如MMLU、MMLU - Pro和GPQA Diamond,DeepSeek - R1相对于DeepSeek - V3表现出更优的性能。这种改进主要归因于在STEM相关问题上的准确性提高,这是通过大规模强化学习(RL)实现的显著增益。此外,DeepSeek - R1在FRAMES上表现出色,这是一个依赖长上下文的问答任务,展示了其强大的文档分析能力。这凸显了推理模型在人工智能驱动的搜索和数据分析任务中的潜力。在事实基准测试SimpleQA上,DeepSeek - R1优于DeepSeek - V3,展示了其处理基于事实的查询的能力。在这个基准测试上,OpenAI - o1超过GPT - 4o也呈现出类似的趋势。然而,DeepSeek - R1在中文SimpleQA基准测试上的表现比DeepSeek - V3差,主要是因为在安全RL之后它倾向于拒绝回答某些查询。如果没有安全RL,DeepSeek - R1的准确率可以超过70%。
DeepSeek - R1在IF - Eval上也取得了令人印象深刻的结果,IF - Eval是一个旨在评估模型遵循格式指令能力的基准测试。这些改进可以与在监督微调(SFT)和RL训练的最后阶段纳入指令遵循数据相关联。此外,在AlpacaEval2.0和ArenaHard上的出色表现表明DeepSeek - R1在写作任务和开放域问答方面的优势。它相对于DeepSeek - V3的显著优势凸显了大规模RL的泛化益处,不仅提高了推理能力,还提高了在不同领域的性能。此外,DeepSeek - R1生成的总结长度简洁,在ArenaHard上平均为689个标记,在AlpacaEval 2.0上为2,218个字符。这表明DeepSeek - R1在基于GPT的评估中避免了引入长度偏差,进一步巩固了其在多个任务中的稳健性。
在数学任务上,DeepSeek - R1的性能与OpenAI - o1 - 1217相当,远远超过其他模型。在编码算法任务上,如LiveCodeBench和Codeforces,也观察到类似的趋势,其中专注于推理的模型在这些基准测试中占主导地位。在面向工程的编码任务上,OpenAI - o1 - 1217在Aider上的表现优于DeepSeek - R1,但在SWE Verified上的性能相当。我们相信DeepSeek - R1的工程性能将在未来版本中得到提高,因为目前相关的RL训练数据量仍然非常有限。
3.2 蒸馏模型评估
如表5所示,简单地蒸馏DeepSeek - R1的输出使高效的DeepSeek - R1 - 7B(即DeepSeek - R1 - Distill - Qwen - 7B,以下类似缩写)在各个方面都优于非推理模型,如GPT - 4o - 0513。DeepSeek - R1 - 14B在所有评估指标上都超过了QwQ - 32B - Preview,而DeepSeek - R1 - 32B和DeepSeek - R1 - 70B在大多数基准测试上显著超过了o1 - mini。这些结果展示了蒸馏的强大潜力。此外,我们发现对这些蒸馏模型应用RL会带来进一步的显著收益。我们认为这值得进一步探索,因此这里只展示简单SFT蒸馏模型的结果。
四、讨论
4.1 蒸馏与强化学习
在第3.2节中,我们看到通过蒸馏DeepSeek - R1,小型模型可以取得令人印象深刻的结果。然而,仍然存在一个问题:模型是否可以通过本文中讨论的大规模RL训练而不进行蒸馏来达到类似的性能?
为了回答这个问题,我们使用数学、代码和STEM数据对Qwen - 32B - Base进行了大规模RL训练,训练超过10K步,得到DeepSeek - R1 - Zero - Qwen - 32B。实验结果如图6所示,表明32B基础模型在经过大规模RL训练后,性能与QwQ - 32B - Preview相当。然而,从DeepSeek - R1蒸馏得到的DeepSeek - R1 - Distill - Qwen - 32B在所有基准测试上的表现都显著优于DeepSeek - R1 - Zero - Qwen - 32B。因此,我们可以得出两个结论:首先,将更强大的模型蒸馏到较小的模型中会产生出色的结果,而依赖于本文中大规模RL的较小模型需要巨大的计算能力,甚至可能无法达到蒸馏的性能。其次,虽然蒸馏策略既经济又有效,但要超越智能的边界可能仍然需要更强大的基础模型和更大规模的强化学习。
4.2 不成功的尝试
在开发DeepSeek - R1的早期阶段,我们也遇到了失败和挫折。我们在这里分享我们的失败经验,以提供见解,但这并不意味着这些方法无法开发出有效的推理模型。
- 过程奖励模型(PRM):PRM是一种引导模型采用更好的方法解决推理任务的合理方法(Lightman等人,2023;Uesato等人,2022;Wang等人,2023)。然而,在实践中,PRM有三个主要限制,可能会阻碍其最终成功。首先,在一般推理中明确定义精细步骤是具有挑战性的。其次,确定当前中间步骤是否正确是一项艰巨的任务。使用模型进行自动注释可能无法产生令人满意的结果,而手动注释不利于扩大规模。第三,一旦引入基于模型的PRM,它不可避免地会导致奖励破解(Gao等人,2022),并且重新训练奖励模型需要额外的训练资源,这会使整个训练管道复杂化。总之,虽然PRM在对模型生成的前N个响应进行重新排名或协助引导搜索方面表现出良好的能力(Snell等人,2024),但在我们的实验中,与它在大规模强化学习过程中引入的额外计算开销相比,其优势有限。
- 蒙特卡洛树搜索(MCTS):受 AlphaGo(Silver 等人,2017b)和 AlphaZero(Silver 等人,2017a)的启发,我们探索了使用蒙特卡洛树搜索(MCTS)来增强测试时计算的可扩展性。这种方法涉及将答案分解为更小的部分,以便模型能够系统地探索解空间。为了便于此操作,我们提示模型生成与搜索所需的特定推理步骤相对应的多个标记。对于训练,我们首先使用收集的提示通过基于预训练值模型引导的 MCTS 找到答案。随后,我们使用得到的问答对来训练演员模型和值模型,迭代地改进这个过程。
然而,当扩大训练规模时,这种方法遇到了几个挑战。首先,与国际象棋不同,在国际象棋中搜索空间相对明确,而在语言模型中,标记生成呈现出指数级更大的搜索空间。为了解决这个问题,我们为每个节点设置了最大扩展限制,但这可能导致模型陷入局部最优。其次,值模型直接影响生成的质量,因为它指导搜索过程的每一步。训练一个精细粒度的值模型本身就很困难,这使得模型难以迭代地改进。虽然 AlphaGo 的核心成功依赖于训练一个值模型来逐步提高其性能,但由于标记生成的复杂性,在我们的设置中很难复制这个原则。
总之,虽然 MCTS 在与预训练值模型配对时可以在推理期间提高性能,但通过自我搜索迭代地提高模型性能仍然是一个重大挑战。
五、结论、限制和未来工作
在这项工作中,我们分享了通过强化学习(RL)提高模型推理能力的历程。DeepSeek - R1 - Zero 代表了一种纯粹的 RL 方法,无需依赖冷启动数据,在各种任务中都取得了强大的性能。DeepSeek - R1 更强大,它利用冷启动数据和迭代的 RL 微调。最终,DeepSeek - R1 在一系列任务上的性能与 OpenAI - o1 - 1217 相当。
我们进一步探索了将推理能力蒸馏到小型密集模型中。我们使用 DeepSeek - R1 作为教师模型生成 800K 数据,并对几个小型密集模型进行微调。结果很有前景:DeepSeek - R1 - Distill - Qwen - 1.5B 在数学基准测试上优于 GPT - 4o 和 Claude - 3.5 - Sonnet,在 AIME 上得分为 28.9%,在 MATH 上为 83.9%。其他密集模型也取得了令人印象深刻的结果,显著优于基于相同底层检查点的其他指令调整模型。
在未来,我们计划在以下方向对 DeepSeek - R1 进行研究:
- 通用能力:目前,DeepSeek - R1 在函数调用、多轮、复杂角色扮演和 json 输出等任务中的能力不如 DeepSeek - V3。未来,我们计划探索如何利用长 CoT 来增强这些领域的任务。
- 语言混合:DeepSeek - R1 目前针对中文和英文进行了优化,在处理其他语言的查询时可能会出现语言混合问题。例如,即使查询不是英文或中文,DeepSeek - R1 也可能使用英文进行推理和响应。我们的目标是在未来的更新中解决这个限制。
- 提示工程:在评估 DeepSeek - R1 时,我们观察到它对提示很敏感。少样本提示会持续降低其性能。因此,我们建议用户直接描述问题并在零样本设置中指定输出格式以获得最佳结果。
- 软件工程任务:由于评估时间长,影响了 RL 过程的效率,大规模 RL 尚未在软件工程任务中广泛应用。因此,DeepSeek - R1 在软件工程基准测试上相对于 DeepSeek - V3 没有显示出巨大的改进。未来版本将通过对软件工程数据进行拒绝采样或在 RL 过程中纳入异步评估来解决这个问题,以提高效率。
参考资料
- 标题:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
- 作者:DeepSeek-AI
- 标签:人工智能、强化学习、大语言模型、推理能力、模型蒸馏
- 概述: 本文介绍了 DeepSeek-R1-Zero 和 DeepSeek-R1 模型,通过强化学习及多阶段训练提升推理能力,在多个任务上取得优异成绩,并对小模型进行蒸馏,开源相关模型及数据。
- 链接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
本文转载自 旺知识,作者: 旺知识