DeepSeek-R1技术大揭秘:论文核心原理拆解与模型性能突破关键

发布于 2025-2-14 13:29
浏览
0收藏

今天分享DeepSeek R1 ,Title: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning:通过强化学习激励LLM的推理能力。
这篇文章介绍了DeepSeek的第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 模型通过大规模强化学习 (RL) 训练,没有监督微调 (SFT) 作为初步步骤,展示了RL的潜力及其带来的卓越的推理能力。 通过强化学习,DeepSeek-R1-Zero 自然而然地涌现出许多强大而有趣的推理行为。为了进一步优化R1-Zero存在的一些问题(语言混乱,综合能力提升),他们推出了 DeepSeek-R1,它在强化学习之前结合了多阶段训练和冷启动数据微调。 DeepSeek-R1 在推理任务上取得了与 OpenAI-01-1217 相媲美的性能。为了支持研究社区,他们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及六个从 DeepSeek-R1 提炼出来的密集模型(1.5B、7B、8B、14B、32B、70B),这些模型基于 Qwen 和 Llama
该方法特点总结如下:

1)直接将强化学习应用于基础模型,无需依赖监督微调(SFT)作为初步步骤。

2)引入 DeepSeek-R1 开发流程,该流程结合了两个强化学习阶段和两个监督微调阶段,为模型的推理和非推理能力奠定基础

3)通过蒸馏技术将大型模型的推理模式转移到小型模型中,提高了小型模型在推理任务上的性能

一、概述

• Title: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

• Authors: DeepSeek-AI

• Github:​​ https://github.com/deepseek-ai/DeepSeek-R1​

1.Motivation

• 当前的大型语言模型(LLMs)在推理任务上取得了显著进展,但仍然面临挑战。

• 纯粹的强化学习(RL)在提升LLMs推理能力方面的潜力尚未充分探索,尤其是在不依赖监督数据的情况下。

• 通过RL训练的模型,如DeepSeek-R1-Zero,在可读性和语言混合方面(例如中英文混着说)存在问题,需要进一步改进以提升用户友好性。

2.Methods

省流版总结:

DeepSeek-R1技术大揭秘:论文核心原理拆解与模型性能突破关键-AI.x社区

DeepSeek-R1-Zero: 使用DeepSeek-V3-Base作为基础模型,采用GRPO(Group Relative Policy Optimization)作为强化学习框架,在没有监督数据的情况下提升模型在推理方面的性能。DeepSeek-R1:

• 冷启动(Cold Start): 收集少量高质量的长CoT(Chain-of-Thought)数据,对DeepSeek-V3-Base模型进行微调,作为强化学习的初始actor。

• 面向推理的强化学习(Reasoning-oriented Reinforcement Learning): 应用与DeepSeek-R1-Zero相同的强化学习训练过程,但侧重于增强模型在编码、数学、科学和逻辑推理等方面的推理能力。引入语言一致性奖励,以减轻CoT中出现的语言混合问题。

• 拒绝抽样和监督微调(Rejection Sampling and Supervised Fine-Tuning): 利用强化学习收敛后的checkpoint收集SFT(Supervised Fine-Tuning)数据,用于后续训练。

• 所有场景的强化学习(Reinforcement Learning for all Scenarios): 实施二级强化学习阶段,旨在提高模型的帮助性和无害性,同时优化其推理能力。

• 知识蒸馏: 使用DeepSeek-R1精心策划的800k个样本,直接微调开源模型Qwen和Llama。

详细方法和步骤:

DeepSeek-R1技术大揭秘:论文核心原理拆解与模型性能突破关键-AI.x社区

DeepSeek-R1-Zero:基础模型的强化学习

• 强化学习算法: 采用 Group Relative Policy Optimization (GRPO) 算法,该算法无需 critic 模型,通过组内分数估计基线,降低了训练成本。

• Reward奖励建模: 使用基于规则的奖励系统,包括:

DeepSeek-R1技术大揭秘:论文核心原理拆解与模型性能突破关键-AI.x社区

a.准确性奖励: 评估答案是否正确,例如数学题答案最终结果的正确性,代码题编译器的反馈。

b.格式奖励: 鼓励模型将思考过程置于 ​​<think>​​​ 和 ​​</think>​​ 标签之间。

• 训练模板: 设计了包含 ​​<think>​​​ 和 ​​</think>​​ 标签的模板,引导模型先输出思考过程,再输出最终答案。

DeepSeek-R1技术大揭秘:论文核心原理拆解与模型性能突破关键-AI.x社区

• 自进化过程: DeepSeek-R1-Zero 在训练过程中展现出自进化特性,能够自主学习更复杂的推理策略,例如反思和探索多种问题解决路径。

DeepSeek-R1技术大揭秘:论文核心原理拆解与模型性能突破关键-AI.x社区

DeepSeek-R1:结合冷启动的强化学习

DeepSeek-R1技术大揭秘:论文核心原理拆解与模型性能突破关键-AI.x社区

• 冷启动 (Cold Start): 为了解决 DeepSeek-R1-Zero 的可读性问题,DeepSeek-R1 首先收集少量高质量的 CoT 数据,对 DeepSeek-V3-Base 模型进行微调,作为强化学习的初始 actor。冷启动数据采用包含总结标记,并过滤掉不友好的回复。

a.方法:1) 挑选高质量Long COT数据。2) 添加和标记。

b.优点:1) 优化可读性(解决R1-Zero的多语言问题或者markdown格式问题)。2) 精心挑选的符合人类偏好的数据可以在R1-zero上继续提升performance。

c.问题:为啥要解决可读性问题?不解决是不是可能会更好(例如降低输出长度,更高效的推理)。

• 面向推理的强化学习 (Reasoning-oriented RL): 在冷启动模型的基础上,应用与 DeepSeek-R1-Zero 类似的强化学习过程,侧重于提升模型在编码、数学、科学和逻辑推理等任务上的能力。为了解决多语言混合(多语言推理)问题,引入了语言一致性奖励。

      a.问题:科学和逻辑推理任务以及数据集是怎么训练的?

• 拒绝采样和监督微调 (Rejection Sampling and SFT): 当推理导向的强化学习收敛后,利用得到的 checkpoint 进行拒绝采样,生成新的 SFT 数据,并结合 DeepSeek-V3 的数据,增强模型在写作、角色扮演和通用任务上的能力。

      a.目的:

   a)此阶段在面向推理的强化学习(RL)过程收敛后启动。

   b)主要目的是收集监督微调(SFT)数据,用于后续的训练轮次。

   c)与最初的冷启动数据仅关注推理不同,此阶段旨在扩展模型的能力,使其涵盖写作、角色扮演和其他通用任务,而不仅仅是推理。

      b.数据收集 - 推理数据:

          a)方法:使用从推理导向的 RL 阶段获得的检查点,通过拒绝采样生成推理轨迹。

          b)数据集扩展:不同于前面 RL 阶段仅仅使用的基于规则的奖励数据。这里引入了非ru le-based reward的数据,在某些情况下使用**生成式奖励模型(DeepSeek-V3)**来判断响应。

          c)数据过滤: 为了确保质量和可读性,输出结果会经过过滤,以移除:1)包含混合语言的思维链;2)过长的段落;3)代码块

          d)采样与选择: 对于每个提示,会生成多个响应。仅保留“正确”的响应用于数据集。

          e)数据集大小: 以这种方式收集了大约 60 万个与推理相关的训练样本

        c.数据收集 - 非推理数据:

              a)涵盖范围:写作、事实性问答(QA)、自我认知和翻译等领域。

              b)论文中提到采用 DeepSeek-V3 的流程并重用 DeepSeek-V3 SFT 数据集的部分内容 来处理这些非推理任务。大约收集了 20 万个与推理无关的样本。  (注意:非推理数据的收集细节在 2.3.4 节中进一步阐述)

            d.收集数据的使用:

               a)收集到的推理和非推理数据(总计约 80 万个样本 - 60 万个推理样本 + 20 万个非推理样本)随后用于对 DeepSeek-V3-Base 模型进行两个 epoch 的微调。然后,这个微调后的模型进入 2.3.4 节描述的最终 RL 阶段。

               b)总结:该步骤利用通过 RL 学习到的推理能力来生成多样化和高质量的 SFT 数据集。这个数据集加强了推理能力,还扩展了模型的通用能力,用于最终的对齐和改进阶段的训练。

  • 面向所有场景的强化学习 (Reinforcement Learning for all Scenarios): 为了进一步对齐人类偏好,实施了第二阶段强化学习,旨在提高模型的helpfulness和harmlessness。

             a.推理数据:例如数学、代码、逻辑推理还是用rule base方法监督。

             b.一般数据:还是用reward模型来提供复杂和微妙场景的偏好信息。估计还是采用pairwise的数据训练的模型。

             c.有用性:只关注最终summary的结果,减少对推理过程的干扰。

             d.无害性:对整个response进行监督,降低任何存在的风险。

模型蒸馏 (Distillation):

• 为了获得更高效的小型推理模型,论文将 DeepSeek-R1 的推理能力蒸馏到 Qwen 和 Llama 系列的开源模型中。蒸馏过程仅使用监督微调 (SFT),未使用强化学习阶段。

3.Conclusion

• DeepSeek-R1-Zero:展示了纯强化学习在激励LLM推理能力方面的潜力,无需依赖监督数据即可实现强大的性能。

DeepSeek-R1技术大揭秘:论文核心原理拆解与模型性能突破关键-AI.x社区

DeepSeek-R1技术大揭秘:论文核心原理拆解与模型性能突破关键-AI.x社区

          a.Aha-moment: 强化学习之美(模型的顿悟时刻,通过学会重新评估初始方法来为问题分配更多的思考时间)

          b.输出长度持续增加(思考时间持续增加)

          c.准确率持续提升(采样16个response计算精度)

DeepSeek-R1技术大揭秘:论文核心原理拆解与模型性能突破关键-AI.x社区

• DeepSeek-R1:通过结合冷启动数据和迭代强化学习微调,进一步提升了模型性能,实现了与OpenAI-01-1217在各种任务上相媲美的水平。

DeepSeek-R1技术大揭秘:论文核心原理拆解与模型性能突破关键-AI.x社区

• 知识蒸馏:通过使用DeepSeek-R1作为教师模型,生成800K训练样本,并微调几个小型密集模型。结果表明,这种蒸馏方法能够显著提高小型模型的推理能力。

4.Limitation

• 局限性 1: DeepSeek-R1 的通用能力有待提升。 在函数调用、多轮对话、复杂角色扮演和 JSON 输出等任务上,DeepSeek-R1 的能力仍不及 DeepSeek-V3。

• 局限性 2: 语言混合问题。 DeepSeek-R1 在处理非中英文查询时,可能会出现语言混合问题,例如用英文进行推理和回复。

• 局限性 3: 提示敏感性。 DeepSeek-R1 对提示词比较敏感,少样本提示 (few-shot prompting) 会降低其性能。

• 局限性 4: 软件工程任务上的应用受限。 由于评估时间较长,大规模强化学习在软件工程任务上的应用尚不充分,DeepSeek-R1 在软件工程基准测试上相比 DeepSeek-V3 提升有限。

二、详细内容

1.Why DeepSeek Zero Work?

1)基于deepseek v3,其具备强大的基座能力。

2)基于GRPO,对长文本(long cot),GRPO的loss函数训练更稳定,容易激发出长推理能力,并且同样对于长文本,可能PPO的Critical Model更不准,反而不利于监督。

3)为什么模型能自主出现自进化现象和“aha moment”?

a.可能答案1: 模型真的从0到1学会了深度推理,出现了顿悟。

a)感觉难度系数太高,rule-base方式监督信号比较稀疏,只能说base-model足够强,才有一定概率能激发。

b.可能答案2: 基座模型其实见过非常多的深度推理的数据,包括数学,代码,科学等,我们只需要适当的监督(Rule-base RL),激活这些能力即可。

            a)如工作[1]中提到:整个 RL 过程是将原本肤浅的自我反思转变为有效的自我反思,以最大化预期奖励,从而提高推理能力。

c.可能答案3:数据污染,可能预训练已经见过非常多的这种深度推理的数据了。

            a)感觉也有可能,[1]中提到llama3不太行,qwen2.5,deepseek这类模型反而效果不错。

4)为什么rule-base的监督信号能work?

• 任务可能其实比较简单,例如[1]提到epoch=0就有这种反思,但是可能不太对,适当监督下就OK了?

5)为什么不用prm监督?

• 数据集构建成本高,这里可能openai走了不少弯路,标注了非常多的数据,所以特宝贝他们的cot过程。

• prm可能效果不一定好?可能并不太能准确判断中间过程的好坏。例如开始想错了,不代表我后面不能做对

• 容易被reward hacking?这个不确定,但是感觉限制了llm的发挥,其实任何任务的推理过程都可以有很多种。或许这是缩短推理路径可以尝试的一些方法。

6)自主挖掘推理过程可能比模仿人类推理更简单!!!

• 原因假设:模型通过实践和试错来发现解决问题的最佳方法。

• 如[2]提出:人类标注者在创建训练数据时,很难知道哪种解决方案最适合模型。人类标注者可能会注入模型不理解的知识,或者忽略模型已有的知识,导致模型难以理解。而强化学习让模型通过试错来自主发现适合自己的解决方案。

2 Why DeepSeek R1 Work?

1)数据,数据还是数据!

  1. 高质量的Long Cot Reasoning数据600k:基于Zero超低低成本 收集了600k高质量的Long COT Reasoning的数据。这里主要数学,编程,科学等领域的数据,也包括经过推理强化后的Zero模型生成的通用场景的推理数据。
  2. 通用推理能力:非推理数据,通用场景高质量数据收集;prompt deepseek v3生成高质量的通用数据集。

 2)Q:为啥感觉DeepSeek-R1能力主要来自于蒸馏DeepSeek-Zero的能力?

        a.能力来源于DeepSeek-Zero蒸馏(600k高质量的数据):前面高质量的冷启动数据提升了Zero推理结果的可读性,可能还有通用能力,同时这些Long COT数据模型学起来可能非常快,因为就是同一个base模型调教出来的。同时还能拓展到其他非数学推理等场景。

         b. 但也不只是蒸馏: 最后阶段10k step的全场景RL训练也能继续提升performance,但是论文没放出具体指标收益,不确定各部分的收益,猜测可能第一步有比较多的简单易学的Long COT数据来学习了,收益可能还比较大,后面RL能继续提升能力?

3) Q:为什么冷启动阶段还采用高质量的数据SFT的老路子?

        a.提升DeepSeek-Zero模型生成的Long COT数据的可读性,可能是为了方便后续基于Zero生成和筛选高质量的生成数据?

         b.使Zero模型生成结果更符合人类偏好。

4) Q:如何提高Zero模型生成的数据集质量?

        a. 利用基于人类偏好优化数据集SFT以及RL微调后的Zero模型(增强版Zero模型)生成。其优点是可读性好,同时推理能力强,并且还能泛化到了其他领域。同时可能模型还更容易学习。

        b.Rule base方法筛选。

        c. deepseek v3模型筛选。

        d. 可能人工筛洗?

        e.背景:其实可能反而LLM自己生成的推理路径更容易学[2]!!!

5)Q:如何对齐人类偏好?

        a.推理数据:例如数学、代码、逻辑推理还是用rule base方法监督。

        b.一般数据:还是用reward模型来提供复杂和微妙场景的偏好信息。估计还是采用pairwise的数据训练的模型。

        c. 有用性:只关注最终summary的结果,减少对推理过程的干扰。

       d.无害性:对整个response进行监督,降低任何存在的风险。

三、总结

结论1: 纯强化学习 (DeepSeek-R1-Zero) 可以在不依赖监督数据的情况下,有效激励LLMs的推理能力。 本文成功探索了使用纯强化学习激励LLMs推理能力的方法 (DeepSeek-R1-Zero),验证了 RL 在提升模型推理能力方面的有效性,无需依赖大量的监督数据。这一发现为未来研究纯 RL 方法在 LLMs 推理能力提升方面的应用奠定了基础。

结论2: 提出的 DeepSeek-R1 训练流程,通过结合冷启动、多阶段 RL 和蒸馏等技术,有效提升了模型的推理能力、用户友好性和效率。 DeepSeek-R1 在多个推理基准测试中取得了优异的成绩,并开源了模型和蒸馏版本,为研究社区提供了宝贵的资源。

结论3: 论文深入分析了模型训练过程中的自进化现象和“aha moment”,揭示了强化学习在驱动模型自主学习复杂推理策略方面的潜力。这些发现有助于研究者更深入地理解 RL 的工作机制,并为未来开发更智能、更自主的模型提供启示。结论4: DeepSeek-R1 模型也存在一些局限性,例如通用能力不足、语言混合问题和提示敏感性等,并提出了未来的改进方向,包括提升通用能力、解决语言混合问题、优化提示工程和探索在软件工程任务上的应用等。 这些分析为未来的研究工作提供了明确的方向。

四、参考

[1] https://oatllm.notion.site/oat-zero

[2]​​https://mp.weixin.qq.com/s/lBc0-8ByRxJ3JBJpMcfzkQ​

本文转载自​NLP PaperWeekly​,作者: NLP PaperWeekly 


已于2025-2-14 13:50:21修改
收藏
回复
举报
回复
相关推荐