DeepSeek横空出世并迅速走红,引发了全球科技圈的强烈震动,NVIDIA股价暴跌18%,全球科技股市市值蒸发近1万亿美元。特朗普也居然公开称赞DeepSeek的崛起具有“积极意义”,并表示这给美国敲响了“警钟”。Anthropic一方面肯定了DeepSeek的成就,另一方面却呼吁美国政府加强对华芯片管制。这也表明中国的AI实力已经不容小觑,正在改变全球AI的发展格局。
DeepSeek系列在技术创新的道路上不断深耕,每一次新版本的发布,都是在原有基础上的一次飞跃,不断为行业注入新的活力。从最初的DeepSeek LLM到最新的DeepSeek R1,每一款模型都蕴含了独特的创新点,在模型架构、训练方法、数据集开发等多个维度上不断突破。
本文笔者将总结梳理DeepSeek家族从最初的DeepSeek LLM、DeepSeekMoE、DeepSeekMath,再到DeepSeek V2、DeepSeek V3以及最新的DeepSeek R1,每一款模型都包括哪些核心技术点,看看DeepSeek采用了哪些技术构建了最先进的大模型。每一次的升级迭代都伴随着哪些训练数据的优化、模型结构的升级以及优化方式的更新,并与大家分享~
DeepSeek LLM
(1) 发布日期:2024年1月
(2) 数据&架构
- 2万亿个中英文词元(2T Tokens)
- 调整了模型层数,DeepSeek 7B是30层,DeepSeek 67B是95层。
- 使用 GQA 优化推理成本。
(3) 训练&Infra
- 使用多阶段学习率调度器替代余弦学习率调度器,可以方便复用第一个训练阶段,在continual training时有独特的优势。
- 使用内部自研的轻量级高效训练框架HAI-LLM来支持训练和评估LLM。
(4) Scaling Laws
找到最优的模型/数据规模分配比例。
(5) 性能
- 67B模型性能超越LLaMA-2 70B。
- Chat版本优于GPT-3.5。
DeepSeek MoE
(1) 发布日期: 2024年1月
(2) 数据&架构
- 采用了创新的 MoE 架构,涉及两个主要策略:细粒度专家细分和共享专家隔离。
- 在2T英文和中文token上从头开始训练。
(3) 性能
- DeepSeekMoE 16B的性能与DeekSeek 7B和LLaMA2 7B相当,计算量仅为40%左右。
- 16B版本可在单40GB内存GPU上部署,通过有监督微调构建了聊天模型,还采用专家级和设备级平衡损失缓解负载不均衡问题。
DeepSeek Math
(1) 发布日期:2024年2月
(2) 数据&架构
- 来自Common Crawl提取的120B高质量数学网页数据,总数据量是开源数据集OpenWebMath的9倍。
- 引入了PPO变体的强化学习算法GRPO,丢弃了Critic Model,显著减少了训练显存并提升了对齐效果。
(3) 预训练
使用了代码领域模型DeepSeek-Coder-v1.5初始化,可以获得比从通用用模型初始化更好的数学能力。
(4) 性能
在中英数学基准榜单上超过Mistral 7B、Llemma-34B,逼近GPT-4能力,跟Minerva 540B效果相当。
DeepSeek V2
(1) 发布日期:2024年5月
(2) 数据&架构
- 改造注意力模块,提出 MLA(Multi-Head Latent Attention)。
- 改进 MoE(Mixture-of-Experts)。
- 基于YaRN扩展长上下文。
(3) 训练
设计三种辅助损失并引入Token-Dropping策略,通过多阶段训练流程提升性能。
DeepSeek V3
(1) 发布日期:2024年12月
(2) 数据&架构
- 采用无辅助损失的负载均衡策略。
- 多Token预测。
- 基于YaRN扩展长上下文。
(3) 训练
- 使用 FP8 混合精度训练框架。
- 使用高效通信框架。
(4) 优化
通过知识蒸馏提升推理性能。
(5) 性能
- 在低训练成本下性能强大。
- 基础模型超越其他开源模型。
- 聊天版本与领先闭源模型性能相当。
DeepSeek R1
(1) 发布日期:2025年1月
(2) 数据&架构
采用多阶段训练和冷启动数据。
(3) 性能
- DeepSeek-R1-Zero无需SFT就有卓越推理能力,与OpenAI-o1-0912在AIME上性能相当。
- DeepSeek-R1推理性能与OpenAI-o1-1217相当。
- 提炼出六个蒸馏模型,显著提升小模型推理能力。