DeepSeek-R1全面超越OpenAI o1:开源大模型训练范式革新

人工智能
DeepSeek-R1 采用 6710 亿参数的 专家混合架构(MoE),但训练成本远低于 OpenAI 和 Meta 的同类模型。

人工智能在过去十年中的发展令人惊叹。其中,2017 年 Google 发布的“Attention Is All You Need”论文奠定了神经网络架构的重要基础,推动了大规模语言模型(LLM)的突破。

OpenAI 早期专注于强化学习(RL),但在 Transformer 结构问世后,迅速调整方向,借助 Google 的开源研究开发出强大的 LLM。然而,尽管 OpenAI 最初以“开放”为宗旨,近年来却逐渐转向封闭模式,自 GPT-2 以来,其所有模型进展均未再公开。

最近,OpenAI 发布了名为 “o1” 的新模型,专注于增强长链式思维(Chain-of-Thought)和强化学习,以提升解决复杂问题的能力。然而,该模型的具体训练细节仍未公开。

但这一切正在改变。

中国 AI 公司 DeepSeek 近期发布了新一代模型 DeepSeek-R1,在复杂领域的推理能力上媲美 OpenAI 的 o1,甚至在多个数学和编程基准测试上超越了它。


图片图片

LLM 的标准训练流程

训练大规模语言模型通常从大规模文本数据的收集开始。这些数据可能来自公开网络资源或专有数据集。

图片图片

随后,这些数据经过清理、格式化、分词,并转换为文本嵌入,供模型进行自监督学习。这一阶段称为预训练,帮助模型掌握语法、语义和上下文关系。

在此基础上,模型会经过 监督微调(SFT),用于提升特定任务(如数学推理、编程、翻译等)的能力。

为了确保模型生成的内容符合人类偏好,通常会通过基于人类反馈的强化学习(RLHF)进行优化,例如使用 PPO(近端策略优化) 或 DPO(直接偏好优化)。

强化学习在长链式思维的优化上发挥着关键作用,这也是 DeepSeek-R1 能够展现强大推理能力的核心原因。

突破 SFT 训练方式,直接使用强化学习

DeepSeek 团队以 DeepSeek-V3-Base 作为预训练基础模型,并跳过了传统的 SFT 过程,直接使用强化学习(RL)来提升推理能力。这使得模型能够在没有监督数据的情况下,自我进化并提升推理能力。

在强化学习中,DeepSeek 团队并未采用 OpenAI 开发的 PPO,而是提出了一种自研算法 GRPO(组相对策略优化)。

PPO vs. GRPO

  • PPO 依赖“策略模型”和“价值模型”计算优势估计(Advantage Estimation),计算成本较高。
  • GRPO 直接根据一组样本的相对奖励计算优势估计,避免了价值模型的计算,提高训练效率并降低成本。

强化学习奖励机制

DeepSeek-R1 采用基于规则的奖励系统,而非神经网络奖励模型,以减少计算开销并避免“奖励作弊”现象。

  • 准确性奖励:依据答案的正确性给予分数。
  • 格式奖励:若模型在回答中遵循特定格式,则额外加分。例如,推理过程包裹在 <think></think> 标签中,最终答案位于 <answer></answer> 标签内。

经过这一训练阶段,模型进化为 DeepSeek-R1-Zero,并展现出惊人的推理能力。

图片图片

DeepSeek-R1-Zero 训练效果

随着强化学习的持续进行,**DeepSeek-R1-Zero 在 AIME(2024)数学竞赛上的首答正确率(pass@1)从 15.6% 提升至 71%**,几乎与 OpenAI o1 持平。

图片图片

进一步测试表明,在 cons@64 指标上,DeepSeek-R1-Zero 甚至超越了 OpenAI o1(83.3% vs 86.7%)!

强化学习训练中的关键现象

  • 模型逐渐增加计算时间,并生成更多推理步骤,以深入思考复杂问题。
  • 自我反思、自我纠正 等能力自然出现,使其能够回顾并调整推理过程。
  • 在训练过程中,研究人员观察到模型在推理某个复杂数学问题时,突然意识到自己可以更深入思考,并主动重新评估之前的推理步骤——这种现象被称为“顿悟时刻(Aha Moment)”。

图片图片

补充 SFT 以优化模型表达能力

尽管纯强化学习训练提升了推理能力,但 DeepSeek-R1-Zero 仍然存在一些问题,例如:

  • 输出格式混乱,影响可读性。
  • 回答可能混杂多种语言。

为此,研究人员引入了一小部分 长链式思维(CoT)数据 进行 SFT,确保模型能够清晰表达推理过程。随后,再次使用强化学习优化推理能力,同时引入语言一致性奖励,确保生成的内容保持单一语言表达。

最终,模型演化为 DeepSeek-R1。

DeepSeek-R1 超越 OpenAI o1 的测试表现

DeepSeek-R1 在多个基准测试上展现出卓越表现,尤其是在:

  • 数学推理(AIME、MATH-500)
  • 编程能力(LiveCodeBench、SWE Verified、Codeforces)

此外,DeepSeek-R1 还在长上下文理解、事实性问答、写作任务等领域超过了自家的 DeepSeek-V3,并在格式化指令跟随能力上表现优异。

图片图片

小型模型的蒸馏研究团队使用 知识蒸馏 方法,将 DeepSeek-R1 的知识迁移至更小的 Qwen 和 Llama 模型,如:

  • DeepSeek-R1-Distill-Qwen-32B 超越 OpenAI o1-mini。
  • DeepSeek-R1-Distill-Llama-70B 在多数测试中远胜对手。

为了进一步优化,研究人员还尝试对 Qwen-32B 进行 RL 训练,最终得到 DeepSeek-R1-Zero-Qwen-32B,其推理能力达到 Qwen 旗下最强模型 QwQ-32B-Preview 的水平。

图片图片

训练成本与推理费用

DeepSeek-R1 采用 6710 亿参数的 专家混合架构(MoE),但训练成本远低于 OpenAI 和 Meta 的同类模型。

  • DeepSeek-R1 训练成本约为 10M(相比之下,GPT-4 训练成本约 $100M,o1 可能更高)。
  • 推理费用仅 60 / 100 万 tokens,后者比 DeepSeek-R1 贵 27 倍。

DeepSeek-R1 未来展望

尽管 DeepSeek-R1 在某些任务上仍逊于 DeepSeek-V3(如函数调用、多轮对话、JSON 生成等),但其开源研究已经对 AI 领域产生深远影响。

Hugging Face 目前已发布开源复现版 Open-R1,预计未来将有更多基于 DeepSeek-R1 的项目涌现。

这一突破不仅提升了开源 LLM 的竞争力,更加速了 AI 技术的民主化进程!

责任编辑:武晓燕 来源: 大迁世界
相关推荐

2025-01-24 15:03:27

2024-09-24 11:01:03

2024-09-13 10:06:21

2024-11-25 17:23:10

2024-09-18 09:17:00

OpenAI模型开源

2024-12-26 17:13:17

AI模型训练

2024-10-05 00:00:00

2024-11-21 14:00:00

模型AI

2025-01-23 14:53:15

2024-09-18 10:37:00

强化学习AI模型

2024-09-13 06:32:25

2024-12-05 10:16:14

2024-11-07 15:40:00

2024-10-10 13:01:43

2024-11-29 13:57:38

2024-12-09 11:06:31

2025-01-20 08:46:00

代码测试模型

2024-09-13 09:26:17

2024-09-19 18:03:31

2025-01-21 11:53:53

点赞
收藏

51CTO技术栈公众号