鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

DeepSeek-AI 发布 DeepSeek-R1-Zero 和 DeepSeek-R1 原创精华

发布于 2025-1-26 09:06

浏览

0收藏

01、概述

近年来，大型语言模型（LLMs）在自然语言处理领域取得了令人瞩目的进展。它们在文本理解、生成和逻辑推理等任务中表现卓越。然而，面对复杂推理任务时，这些模型仍然存在诸多挑战。例如，依赖大规模监督微调的方式虽然提升了模型性能，但限制了其可扩展性和通用性。此外，如何平衡推理的复杂性、计算效率和结果可读性，依然是研究者们需要攻克的难题。

在这一背景下，DeepSeek-AI团队带来了令人耳目一新的解决方案——DeepSeek-R1，以强化学习（RL）为核心，重塑语言模型的推理能力。

02、打破瓶颈：DeepSeek-R1的两大版本

DeepSeek-R1项目推出了两个独立版本，分别针对推理能力和多阶段训练流程进行了创新优化：

DeepSeek-R1-Zero：该版本完全基于强化学习训练，未使用任何监督数据，却展现出卓越的推理行为，例如处理长链式思维（Chain-of-Thought, CoT）的能力。
DeepSeek-R1：在Zero的基础上进一步发展，采用多阶段训练流程，不仅保留了强大的推理能力，还解决了语言混杂和可读性等问题，使模型更加贴近用户需求。

DeepSeek-AI 发布 DeepSeek-R1-Zero 和 DeepSeek-R1-AI.x社区

这两个版本均以实现模型的高可用性和扩展性为目标，为AI推理能力的提升提供了新思路。

03、技术创新：让推理更强大、更高效

1）基于推理任务的强化学习

DeepSeek-R1-Zero通过强化学习方法，在没有监督数据的情况下优化模型性能。其核心技术是Group Relative Policy Optimization（GRPO），这种方法评估多个输出并进行优化，使模型在多项基准测试中表现优异。例如，在AIME 2024测试中，其pass@1得分从15.6%提升至71.0%。

2）多阶段训练流程

DeepSeek-R1采用了一种独特的训练方法：

先利用数千个精心设计的链式思维（CoT）样本对基础模型进行微调（称为冷启动数据）。

然后通过强化学习专注于推理能力的提升，并结合语言一致性奖励，确保输出既逻辑严谨又通俗易懂。

3）小模型蒸馏技术

考虑到计算资源的限制，DeepSeek-AI团队通过蒸馏技术，基于Qwen和Llama架构，从DeepSeek-R1中提炼出六个小型模型（参数量从1.5B到70B不等）。这些小模型虽体积更小，但保留了强大的推理能力。例如，14B蒸馏模型在AIME 2024中的pass@1得分高达69.7%，甚至超过了一些更大的模型。

04、成绩亮眼：数据背后的卓越表现

DeepSeek-R1的卓越性能通过多个基准测试得到了验证，涵盖推理、编程及通用任务等多个领域。

推理能力测试

AIME 2024：79.8%（pass@1），超越OpenAI的o1-mini模型。
MATH-500：97.3%（pass@1），接近OpenAI-o1-1217的表现。
GPQA Diamond：71.5%（pass@1），在基于事实的推理任务中表现出色。

编程及STEM任务

Codeforces Elo评级：2029，超越96.3%的真人参赛者。
SWE-Bench Verified：49.2%的问题解决率，与其他领先模型相媲美。

通用能力测试

ArenaHard：92.3%胜率，展示出极强的泛化能力。
AlpacaEval 2.0：87.6%胜率，再次证明了模型的全面性能。

蒸馏模型亮点

例如，DeepSeek-R1-Distill-Qwen-32B蒸馏模型，在AIME 2024中的pass@1得分达到72.6%，展现出蒸馏技术在性能与可扩展性之间的优秀平衡。

DeepSeek-AI 发布 DeepSeek-R1-Zero 和 DeepSeek-R1-AI.x社区

05、意义深远：AI推理的新方向

DeepSeek-R1系列不仅推动了推理能力的提升，还在开放性和实用性方面进行了积极尝试。其API（‘model=deepseek-reasoner’）以MIT许可协议的形式开放，为开发者和研究者提供了高效便捷的工具。

展望未来，DeepSeek-AI计划进一步优化多语言支持、提升软件工程能力，并改进模型对不同任务的敏感性。这些努力旨在巩固DeepSeek-R1在推理领域的地位，为AI应对更复杂的挑战奠定基础。

06、结语

DeepSeek-R1的成功告诉我们，AI推理能力的提升，不仅依赖于技术创新，更需要全局视野与长期投入。从强化学习到蒸馏技术，从开放源码到实际应用，DeepSeek-R1为行业树立了标杆。未来，AI是否能真正实现“深度推理”的愿景，我们拭目以待。

参考：

本文转载自公众号Halo咯咯作者：基咯咯

原文链接：https://mp.weixin.qq.com/s/qhiC2sQ9gO56cD08FQgNoQ

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

大型语言模型

赞

收藏

回复

举报

回复

相关推荐

基于 DeepSeek R1 和 Ollama 开发 RAG 系统

玄姐聊AGI • 1658浏览 • 0回复
DeepSeek-R1：通过强化学习激发大语言模型的推理潜能

柏企阅文 • 2210浏览 • 0回复
“几十块”从零复现deepseek-R1–zero“顿悟时刻”不可能实验验证

大模型自然语言处理 • 606浏览 • 0回复
图文详解：带你读懂 DeepSeek-R1 的核心原理

Baihai_IDP • 2205浏览 • 0回复
DeepSeek-R1-Zero自我进化的3大特点和3大基石

智驻未来 • 705浏览 • 0回复
带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈

玄姐聊AGI • 3920浏览 • 1回复
Unsloth：仅需7GB显存就能训练自己的DeepSeek-R1！

PyTorch研习社 • 1094浏览 • 0回复
7G显存，训练自己的 DeepSeek-R1：GRPO 资源下降80%

鸿煊的学习笔记 • 667浏览 • 0回复
DeepSeek-R1-Zero激发了推理Scaling Law

ceesoft • 575浏览 • 0回复
Deepseek AI模型本地部署步骤简记：ollama + deepseek-r1 + 本地AI模型的Web UI

lintoms • 883浏览 • 0回复
DeepSeek-R1技术大揭秘：论文核心原理拆解与模型性能突破关键

arnoldzhw • 902浏览 • 0回复
满血DeepSeek-R1免费用！附带数据蒸馏的一些想法！

NLP工作站 • 1046浏览 • 0回复
Deepseek AI模型本地部署步骤简记：ollama + deepseek-r1 + 本地AI模型的Web UI

parson2000 • 342浏览 • 0回复
AI领域的“新王”诞生! 马斯克发布Grok 3，赶超OpenAI o1和Deepseek R1！

AI博物院 • 285浏览 • 0回复
DeepSeek-R1 用来优化GPU 内核？代码自动生成还比人写得好！

Syrupup • 393浏览 • 0回复
通过LM Studio本地私有化部署DeepSeek-R1模型，无网络也能用

与辉鸿蒙 • 1515浏览 • 0回复
DeepSeek R1 全系列模型部署指南

芝士AI吃鱼 • 2163浏览 • 0回复
Grok 3 与 DeepSeek-R1 是怎么学会思考的？

机器学习与数学 • 567浏览 • 0回复
冲，DeepSeek-R1/V3推理系统架构设计被开源了！

PaperAgent • 211浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

热门推荐

Gemini 2.0 Flash Thinking：谷歌放大招！能"直播思考"的AI来了，推理能力吊打OpenAI？ 0回复

带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈 1回复

4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！ 0回复

国家队出手！DeepSeek上线国家超算互联网平台，免注册开箱即用！ 0回复

VLLM 与 Ollama：如何选择合适的轻量级 LLM 框架？ 0回复

上一篇： DeepSeek-R1-Distill-Qwen-1.5B 在某些基准测试中超越了 GPT-4o

下一篇： RAG：七种用于向量数据库+相似性搜索的索引方法

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载