一文读懂 DeepSeek-R1：大语言模型推理能力进化的秘密武器精华

发布于 2025-2-8 14:22

浏览

0收藏

大家好！今天咱得聊聊人工智能这圈的大新闻。现在大语言模型，就像雨后春笋一样冒出来，大家都知道它们厉害，能聊天、能写文章、能做题，可你知道它们的推理能力是咋一步步变强的吗？最近，DeepSeek - AI搞出了个大动作，整出了DeepSeek - R1系列模型，这就好比给大语言模型的推理能力打了一针超强的“升级针”，直接让它们的“智商”上了好几个台阶。这模型到底咋做到的？它又会给我们的生活带来啥意想不到的变化？今天咱就好好扒一扒。

一、大语言模型推理能力进化史：从蹒跚学步到健步如飞

咱先回顾一下大语言模型的推理能力是咋发展起来的。以前，这些模型就像刚学走路的孩子，磕磕绊绊。碰到稍微复杂点的问题，就抓瞎了。后来，大家发现用大量数据训练能让它们进步，就像给孩子请了好多家教，教了好多知识。但这也有个问题，数据量太大了，训练起来又费时间又费钱，就像请了一堆家教，家里快养不起了。

再后来，有了新办法，就是在模型训练好之后，再给它“开小灶”，这就是后训练技术。比如说OpenAI的o1系列模型，通过增加思维链推理过程的长度，让模型在推理的时候能像我们解题一样，一步步地想，这一下效果就好多了。就好比孩子学会了有条理地思考问题，成绩一下子就提高了。但这还不够完美，怎么在测试的时候让模型更有效地发挥能力，还是个难题，大家都在绞尽脑汁想办法。

二、DeepSeek-R1-Zero：不用“老师”教，自己摸索变强

在这个时候，DeepSeek - AI站出来了，搞出了DeepSeek - R1 - Zero模型。这个模型可太神奇了，它训练的时候，居然不用那些“监督数据”，也就是没有“老师”在旁边告诉它对错，自己通过强化学习就能慢慢变强，就像一个特别自律的孩子，没有家长和老师盯着，自己就能努力学习进步。

它用的强化学习算法叫GRPO，这算法听起来挺高深，实际上可以用一个有趣的例子来理解。想象一下，学校举办了一场解题大赛，每个学生就是模型给出的一个答案。GRPO就像是这场大赛的特殊评分规则。

比赛开始，老师从之前表现一般的学生（旧策略πθold）里挑出一组，比如5个学生，让他们去解同一道数学题。这5个学生给出各自的解题思路和答案，就像模型针对一个问题生成了不同的回答。

然后，老师要开始评估新的“参赛选手”（新策略πθ）的表现。评估的时候，老师会对比新学生和之前那组学生的答案。如果新学生的解题思路更好、答案更准确，那他就能得到高分；要是解题思路和答案不咋地，分数就低。这里的分数就类似GRPO里的“奖励”。

比如说，有一道数学题是计算一个复杂图形的面积。之前那组学生里，有的把图形分割错了，有的计算过程出错，最后只有一个学生勉强算对了。这时候来了个新学生，他用了一种特别巧妙的方法，不仅把图形分割得很合理，计算过程也又快又准。按照GRPO的规则，这个新学生就能得到很高的奖励分。

但是，老师也不能让学生们为了拿高分就“乱来”。就像在GRPO里，有两个超参数ε和β来约束。ε就像是一个“行为规范线”，如果新学生为了拿高分，解题方法变得特别怪异、不合理，超出了这个规范线，老师就会限制他的得分。β则是用来衡量新学生和一个“模范学生”（参考策略πref）之间的差异，如果新学生和模范学生的解题思路差异太大，也会被扣分。

另外，计算每个学生的“优势分”（Ai）也很有意思。老师会把这组学生的得分做个统计，算出平均分和标准差。如果某个学生的得分比平均分高很多，那他的优势分就高；要是比平均分低很多，优势分就低。这就好比在班级里，成绩比平均分高很多的同学，在排名上就更有优势。通过这样的方式，GRPO就能引导模型不断改进，给出更好的答案。

为了训练这个模型，研究人员还给它设计了一个很有意思的模板。比如说，用户问一个问题，模型得先在心里“思考”一下，把思考过程写在标签里，然后再把答案写在标签里。这就好比我们做数学题，不能只写个答案，得把解题步骤也写清楚。

在训练过程中，DeepSeek - R1 - Zero的表现就像坐了火箭一样，蹭蹭往上涨。就拿AIME 2024这个数学竞赛题来说，刚开始，它的通过率只有15.6% ，这成绩确实不咋地。但经过几千次的强化学习训练后，它的通过率一下子涨到了71.0% ，要是用多数投票的方法，通过率能达到86.7% ，这成绩都快赶上OpenAI的o1 - 0912模型了，简直太牛了！

而且，这个模型在训练过程中还会自己进化。它思考问题的时间越来越长，就像我们遇到难题，会多花点时间琢磨一样。它还会自己反思，看看自己之前的思路对不对，有没有更好的办法，这种自我进化的能力太让人惊讶了！不过呢，它也不是十全十美的，它的回答有时候不太好懂，还会出现语言混合的情况，就像一个人说话一会儿中文一会儿英文，让人听得有点懵。

三、DeepSeek-R1：吸取经验，全面升级

DeepSeek - AI的研究人员一看，DeepSeek - R1 - Zero虽然厉害，但还有问题啊，得想办法改进。于是，他们就搞出了DeepSeek - R1模型。这就好比给DeepSeek - R1 - Zero做了一次全面升级，让它变得更完美。

为了解决DeepSeek - R1 - Zero的那些问题，DeepSeek - R1在训练的时候，先用了一个小技巧，就是“冷启动”。这就像我们开车，冬天的时候，车子得先预热一下才能开得更顺。DeepSeek - R1也是这样，它先收集了几千条“长思维链”的数据，用这些数据来微调模型，让模型有个好的开始。这些数据都是经过精心设计的，可读性很强，就像我们看的那些简单易懂的科普文章一样。

接下来，DeepSeek - R1就开始进行推理导向的强化学习。这个过程和DeepSeek - R1 - Zero有点像，但它还考虑了一个新问题，就是语言混合。为了让模型说的话更“规矩”，研究人员加了一个语言一致性奖励。比如说，如果模型在思考过程中，大部分用的是中文，就给它奖励，要是一会儿中文一会儿英文，就不给奖励。这样一来，模型说的话就更清楚，更好懂了。

当推理导向的强化学习差不多收敛的时候，研究人员又做了一件事，就是用拒绝采样的方法收集数据，然后进行监督微调。这就好比我们在一堆东西里挑挑拣拣，把不好的去掉，留下好的，再用这些好的东西来训练模型，让模型变得更厉害。

最后，DeepSeek - R1还进行了一次针对所有场景的强化学习。这次强化学习的目标是让模型更符合我们人类的喜好，不仅要推理能力强，还要对我们有帮助，不会产生有害的内容。经过这一系列的操作，DeepSeek - R1的能力得到了全面提升，在很多任务上的表现都和OpenAI的o1 - 1217模型差不多，甚至在一些数学任务上还超过了它。

四、模型蒸馏：让小模型也有大能量

DeepSeek - AI的研究人员还不满足于此，他们又想到了一个新点子，就是把DeepSeek - R1的推理能力“复制”到小模型上，这就是模型蒸馏技术。这就好比把一个武林高手的内力传给一个小徒弟，让小徒弟也能变得很厉害。

他们用DeepSeek - R1生成了80万条数据，然后用这些数据来微调一些开源模型，像Qwen和Llama系列的模型。结果发现，这些小模型经过微调后，推理能力有了很大的提升。比如说，DeepSeek - R1 - Distill - Qwen - 7B这个模型，在AIME 2024的测试中，通过率达到了55.5% ，比一些比它大的模型表现还好。DeepSeek - R1 - Distill - Qwen - 32B模型在很多测试中，成绩都超过了之前的开源模型，和o1 - mini模型差不多。这说明模型蒸馏技术真的很有效，能让小模型也有大能量。

五、实验大揭秘：DeepSeek-R1到底有多强

为了测试DeepSeek - R1和那些蒸馏出来的小模型到底有多厉害，研究人员找了一大堆测试基准，像MMLU、MATH - 500、Codeforces这些，都是很有挑战性的测试。

在知识类的测试中，比如MMLU、MMLU - Pro和GPQA Diamond这些测试里，DeepSeek - R1比DeepSeek - V3表现得好多了。这就好比一个学生，之前成绩一般般，经过努力学习后，成绩一下子提高了很多。在一些长文本分析的测试中，DeepSeek - R1也表现得很出色，说明它的理解能力很强。不过，在中文的SimpleQA测试中，DeepSeek - R1因为考虑了安全问题，有些问题它拒绝回答，所以成绩比DeepSeek - V3差了点，但要是不考虑安全问题，它的准确率能超过70% 。

在数学和编程相关的测试中，DeepSeek - R1的表现就更厉害了。在AIME 2024和MATH - 500这些数学测试里，它的成绩和OpenAI的o1 - 1217模型差不多，比其他模型都要好很多。在编程算法的测试中，像LiveCodeBench和Codeforces这些测试里，DeepSeek - R1也表现得非常出色，就像一个编程高手，在比赛中轻松打败很多对手。

那些蒸馏出来的小模型表现也很不错。DeepSeek - R1 - Distill - Qwen - 7B模型在很多测试中都超过了像GPT - 4o - 0513这样的模型，DeepSeek - R1 - Distill - Qwen - 14B模型在所有评估指标上都超过了QwQ - 32B - Preview模型，DeepSeek - R1 - Distill - Qwen - 32B和DeepSeek - R1 - Distill - Llama - 70B模型在大多数测试中都比o1 - mini模型表现得好。这些结果都说明，DeepSeek - R1和它蒸馏出来的小模型真的很厉害。

六、技术大讨论：蒸馏和强化学习，谁更胜一筹

在研究过程中，研究人员还发现了一个很有意思的问题，就是蒸馏和强化学习，到底哪个对提升模型推理能力更有效呢？他们做了个实验，用Qwen - 32B - Base模型进行大规模的强化学习训练，训练了1万多步，得到了DeepSeek - R1 - Zero - Qwen - 32B模型。结果发现，这个模型的表现和QwQ - 32B - Preview模型差不多。但是，从DeepSeek - R1蒸馏出来的DeepSeek - R1 - Distill - Qwen - 32B模型，在所有测试中都比DeepSeek - R1 - Zero - Qwen - 32B模型表现得好。

这就好比两个学生，一个学生自己努力学习（强化学习），另一个学生跟着一个学习特别好的同学（DeepSeek - R1）学习（蒸馏），结果发现跟着好同学学习的学生进步更大。这说明，把大模型的能力蒸馏到小模型上，效果真的很好，而且比小模型自己进行大规模强化学习更有效。不过，研究人员也说，要想让模型的智能有更大的突破，可能还是需要更强大的基础模型和更大规模的强化学习。

七、失败乃成功之母：那些不太成功的尝试

在开发DeepSeek - R1的过程中，研究人员也不是一帆风顺的，他们也遇到了很多失败和挫折。比如说，他们尝试过用过程奖励模型（PRM）来引导模型更好地解决推理问题。这就好比给学生一个解题的思路指南，让他们按照这个思路去解题。但是在实际操作中，他们发现这个方法有很多问题。首先，在一般的推理中，很难明确地定义一个精细的步骤，就像我们给学生讲题，很难把每一步都讲得特别清楚。其次，判断中间步骤是否正确也很困难，让模型自己判断吧，结果不太好，让人手动标注吧，又没办法大规模进行。最后，用了基于模型的PRM之后，还容易出现“奖励作弊”的情况，就是模型为了得到奖励，走一些歪路，而且重新训练奖励模型又要花很多资源，让整个训练过程变得很复杂。所以，虽然PRM在某些方面有点用，但总体来说，它的问题比好处更多。

他们还尝试过用蒙特卡罗树搜索（MCTS）来增强模型在测试时的计算能力。这就好比我们走迷宫，每走一步都看看周围有哪些路可以走，然后选择一条最有可能走出迷宫的路。但是在训练模型的时候，他们发现这个方法也很难。因为和走迷宫不一样，模型生成的“路”（也就是答案）的搜索空间太大了，就像一个超级大的迷宫，很难找到出口。而且，训练一个精细的价值模型也很困难，这个价值模型就像我们在迷宫里判断哪条路更好走的指南针，指南针不准，模型就很难进步。所以，虽然MCTS在和预训练的价值模型一起使用时，能在推理时提高一点性能，但要想通过它来不断提升模型的性能，还是个很大的挑战。

八、未来展望：DeepSeek-R1的无限可能

现在，DeepSeek - R1已经很厉害了，但研究人员并不满足于此，他们对未来有很多的计划。

在通用能力方面，DeepSeek - R1现在在一些功能调用、多轮对话、复杂角色扮演和json输出这些任务上，还不如DeepSeek - V3。研究人员打算利用长思维链来提升这些方面的能力，就像给模型多开几门课，让它变得更全能。

在语言混合方面，DeepSeek - R1现在主要是针对中文和英文进行优化的，遇到其他语言的问题时，就容易出现语言混合的情况。比如说，用户用日语问问题，它可能会用英文来推理和回答。研究人员希望在未来的更新中解决这个问题，让模型能更好地处理各种语言的问题。

在提示工程方面，研究人员发现DeepSeek - R1对提示很敏感，用少样本提示的时候，它的性能会下降。所以，他们建议用户在使用的时候，直接描述问题，用零样本设置，这样模型就能发挥出最好的水平。这就好比我们和人交流，说话越直接越清楚，对方就越容易理解我们的意思。

在软件工程任务方面，由于评估时间太长，影响了强化学习的效率，所以DeepSeek - R1在软件工程基准测试上，比DeepSeek - V3并没有太大的提升。研究人员打算在未来的版本中，通过对软件工程数据进行拒绝采样或者在强化学习过程中加入异步评估的方法，来提高效率，让DeepSeek - R1在软件工程领域也能大放异彩。

九、总结：DeepSeek-R1带来的技术变革

总的来说，DeepSeek - R1系列模型的出现，真的给大语言模型的推理能力带来了巨大的提升。DeepSeek - R1 - Zero通过纯强化学习，展现出了强大的自我进化能力，虽然它还有一些小问题，但为后来的研究打下了很好的基础。DeepSeek - R1则通过冷启动、多阶段训练等方法，解决了DeepSeek - R1 - Zero的问题，让模型的性能更上一层楼。而且，通过模型蒸馏技术，把大模型的能力传递给小模型，让小模型也能在推理任务中表现出色。

这些技术创新不仅让我们看到了大语言模型推理能力的巨大潜力，也为未来的人工智能发展开辟了新的道路。也许在不久的将来，我们身边的各种智能设备，像手机、智能音箱，都能用上这些强大的模型，为我们提供更智能、更贴心的服务。说不定以后我们的学习、工作、生活都会因为这些技术的进步而变得更加便捷、有趣。让我们一起期待那一天的到来吧！

本文转载自旺知识，作者：旺知识

标签

51CTO

51CTO博客

51CTO学堂

一文读懂 DeepSeek-R1：大语言模型推理能力进化的秘密武器精华

一、大语言模型推理能力进化史：从蹒跚学步到健步如飞

二、DeepSeek-R1-Zero：不用“老师”教，自己摸索变强

三、DeepSeek-R1：吸取经验，全面升级

四、模型蒸馏：让小模型也有大能量

五、实验大揭秘：DeepSeek-R1到底有多强

六、技术大讨论：蒸馏和强化学习，谁更胜一筹

七、失败乃成功之母：那些不太成功的尝试

八、未来展望：DeepSeek-R1的无限可能

九、总结：DeepSeek-R1带来的技术变革

目录

51CTO

51CTO博客

51CTO学堂

一文读懂 DeepSeek-R1：大语言模型推理能力进化的秘密武器 精华

一、大语言模型推理能力进化史：从蹒跚学步到健步如飞

二、DeepSeek-R1-Zero：不用“老师”教，自己摸索变强

三、DeepSeek-R1：吸取经验，全面升级

四、模型蒸馏：让小模型也有大能量

五、实验大揭秘：DeepSeek-R1到底有多强

六、技术大讨论：蒸馏和强化学习，谁更胜一筹

七、失败乃成功之母：那些不太成功的尝试

八、未来展望：DeepSeek-R1的无限可能

九、总结：DeepSeek-R1带来的技术变革

目录

一文读懂 DeepSeek-R1：大语言模型推理能力进化的秘密武器精华