DeepSeek-R1全面超越OpenAI o1：开源大模型训练范式革新-51CTO.COM

人工智能在过去十年中的发展令人惊叹。其中，2017 年 Google 发布的“Attention Is All You Need”论文奠定了神经网络架构的重要基础，推动了大规模语言模型（LLM）的突破。

OpenAI 早期专注于强化学习（RL），但在 Transformer 结构问世后，迅速调整方向，借助 Google 的开源研究开发出强大的 LLM。然而，尽管 OpenAI 最初以“开放”为宗旨，近年来却逐渐转向封闭模式，自 GPT-2 以来，其所有模型进展均未再公开。

最近，OpenAI 发布了名为 “o1” 的新模型，专注于增强长链式思维（Chain-of-Thought）和强化学习，以提升解决复杂问题的能力。然而，该模型的具体训练细节仍未公开。

但这一切正在改变。

中国 AI 公司 DeepSeek 近期发布了新一代模型 DeepSeek-R1，在复杂领域的推理能力上媲美 OpenAI 的 o1，甚至在多个数学和编程基准测试上超越了它。

图片

LLM 的标准训练流程

训练大规模语言模型通常从大规模文本数据的收集开始。这些数据可能来自公开网络资源或专有数据集。

图片

随后，这些数据经过清理、格式化、分词，并转换为文本嵌入，供模型进行自监督学习。这一阶段称为预训练，帮助模型掌握语法、语义和上下文关系。

在此基础上，模型会经过监督微调（SFT），用于提升特定任务（如数学推理、编程、翻译等）的能力。

为了确保模型生成的内容符合人类偏好，通常会通过基于人类反馈的强化学习（RLHF）进行优化，例如使用 PPO（近端策略优化）或 DPO（直接偏好优化）。

强化学习在长链式思维的优化上发挥着关键作用，这也是 DeepSeek-R1 能够展现强大推理能力的核心原因。

突破 SFT 训练方式，直接使用强化学习

DeepSeek 团队以 DeepSeek-V3-Base 作为预训练基础模型，并跳过了传统的 SFT 过程，直接使用强化学习（RL）来提升推理能力。这使得模型能够在没有监督数据的情况下，自我进化并提升推理能力。

在强化学习中，DeepSeek 团队并未采用 OpenAI 开发的 PPO，而是提出了一种自研算法 GRPO（组相对策略优化）。

PPO vs. GRPO

PPO 依赖“策略模型”和“价值模型”计算优势估计（Advantage Estimation），计算成本较高。
GRPO 直接根据一组样本的相对奖励计算优势估计，避免了价值模型的计算，提高训练效率并降低成本。

强化学习奖励机制

DeepSeek-R1 采用基于规则的奖励系统，而非神经网络奖励模型，以减少计算开销并避免“奖励作弊”现象。

准确性奖励：依据答案的正确性给予分数。
格式奖励：若模型在回答中遵循特定格式，则额外加分。例如，推理过程包裹在 <think></think> 标签中，最终答案位于 <answer></answer> 标签内。

经过这一训练阶段，模型进化为 DeepSeek-R1-Zero，并展现出惊人的推理能力。

图片

DeepSeek-R1-Zero 训练效果

随着强化学习的持续进行，**DeepSeek-R1-Zero 在 AIME（2024）数学竞赛上的首答正确率（pass@1）从 15.6% 提升至 71%**，几乎与 OpenAI o1 持平。

图片

进一步测试表明，在 cons@64 指标上，DeepSeek-R1-Zero 甚至超越了 OpenAI o1（83.3% vs 86.7%）！

强化学习训练中的关键现象

模型逐渐增加计算时间，并生成更多推理步骤，以深入思考复杂问题。
自我反思、自我纠正等能力自然出现，使其能够回顾并调整推理过程。
在训练过程中，研究人员观察到模型在推理某个复杂数学问题时，突然意识到自己可以更深入思考，并主动重新评估之前的推理步骤——这种现象被称为“顿悟时刻（Aha Moment）”。

图片

补充 SFT 以优化模型表达能力

尽管纯强化学习训练提升了推理能力，但 DeepSeek-R1-Zero 仍然存在一些问题，例如：

输出格式混乱，影响可读性。
回答可能混杂多种语言。

为此，研究人员引入了一小部分长链式思维（CoT）数据进行 SFT，确保模型能够清晰表达推理过程。随后，再次使用强化学习优化推理能力，同时引入语言一致性奖励，确保生成的内容保持单一语言表达。

最终，模型演化为 DeepSeek-R1。

DeepSeek-R1 超越 OpenAI o1 的测试表现

DeepSeek-R1 在多个基准测试上展现出卓越表现，尤其是在：

数学推理（AIME、MATH-500）
编程能力（LiveCodeBench、SWE Verified、Codeforces）

此外，DeepSeek-R1 还在长上下文理解、事实性问答、写作任务等领域超过了自家的 DeepSeek-V3，并在格式化指令跟随能力上表现优异。

图片

小型模型的蒸馏研究团队使用知识蒸馏方法，将 DeepSeek-R1 的知识迁移至更小的 Qwen 和 Llama 模型，如：

DeepSeek-R1-Distill-Qwen-32B 超越 OpenAI o1-mini。
DeepSeek-R1-Distill-Llama-70B 在多数测试中远胜对手。

为了进一步优化，研究人员还尝试对 Qwen-32B 进行 RL 训练，最终得到 DeepSeek-R1-Zero-Qwen-32B，其推理能力达到 Qwen 旗下最强模型 QwQ-32B-Preview 的水平。

图片

训练成本与推理费用

DeepSeek-R1 采用 6710 亿参数的专家混合架构（MoE），但训练成本远低于 OpenAI 和 Meta 的同类模型。

DeepSeek-R1 训练成本约为 10M（相比之下，GPT-4 训练成本约 $100M，o1 可能更高）。
推理费用仅 60 / 100 万 tokens，后者比 DeepSeek-R1 贵 27 倍。

DeepSeek-R1 未来展望

尽管 DeepSeek-R1 在某些任务上仍逊于 DeepSeek-V3（如函数调用、多轮对话、JSON 生成等），但其开源研究已经对 AI 领域产生深远影响。

Hugging Face 目前已发布开源复现版 Open-R1，预计未来将有更多基于 DeepSeek-R1 的项目涌现。

这一突破不仅提升了开源 LLM 的竞争力，更加速了 AI 技术的民主化进程！