一文速通 DeepSeek 家族核心技术点:从 LLM 到 R1!

人工智能
本文笔者将总结梳理DeepSeek家族从最初的DeepSeek LLM、DeepSeekMoE、DeepSeekMath,再到DeepSeek V2、DeepSeek V3以及最新的DeepSeek R1,每一款模型都包括哪些核心技术点,看看DeepSeek采用了哪些技术构建了最先进的大模型。

DeepSeek横空出世并迅速走红,引发了全球科技圈的强烈震动,NVIDIA股价暴跌18%,全球科技股市市值蒸发近1万亿美元。特朗普也居然公开称赞DeepSeek的崛起具有“积极意义”,并表示这给美国敲响了“警钟”。Anthropic一方面肯定了DeepSeek的成就,另一方面却呼吁美国政府加强对华芯片管制。这也表明中国的AI实力已经不容小觑,正在改变全球AI的发展格局。

DeepSeek系列在技术创新的道路上不断深耕,每一次新版本的发布,都是在原有基础上的一次飞跃,不断为行业注入新的活力。从最初的DeepSeek LLM到最新的DeepSeek R1,每一款模型都蕴含了独特的创新点,在模型架构、训练方法、数据集开发等多个维度上不断突破。

本文笔者将总结梳理DeepSeek家族从最初的DeepSeek LLM、DeepSeekMoE、DeepSeekMath,再到DeepSeek V2、DeepSeek V3以及最新的DeepSeek R1,每一款模型都包括哪些核心技术点,看看DeepSeek采用了哪些技术构建了最先进的大模型。每一次的升级迭代都伴随着哪些训练数据的优化、模型结构的升级以及优化方式的更新,并与大家分享~

DeepSeek LLM

(1) 发布日期:2024年1月

(2) 数据&架构

  • 2万亿个中英文词元(2T Tokens)
  • 调整了模型层数,DeepSeek 7B是30层,DeepSeek 67B是95层。
  • 使用 GQA 优化推理成本。

(3) 训练&Infra

  • 使用多阶段学习率调度器替代余弦学习率调度器,可以方便复用第一个训练阶段,在continual training时有独特的优势。
  • 使用内部自研的轻量级高效训练框架HAI-LLM来支持训练和评估LLM。

(4) Scaling Laws

找到最优的模型/数据规模分配比例。

(5) 性能

  • 67B模型性能超越LLaMA-2 70B。
  • Chat版本优于GPT-3.5。

DeepSeek MoE

(1) 发布日期: 2024年1月

(2) 数据&架构

  • 采用了创新的 MoE 架构,涉及两个主要策略:细粒度专家细分和共享专家隔离。
  • 在2T英文和中文token上从头开始训练。

(3) 性能

  • DeepSeekMoE 16B的性能与DeekSeek 7B和LLaMA2 7B相当,计算量仅为40%左右。
  • 16B版本可在单40GB内存GPU上部署,通过有监督微调构建了聊天模型,还采用专家级和设备级平衡损失缓解负载不均衡问题。

DeepSeek Math

(1) 发布日期:2024年2月

(2) 数据&架构

  • 来自Common Crawl提取的120B高质量数学网页数据,总数据量是开源数据集OpenWebMath的9倍。
  • 引入了PPO变体的强化学习算法GRPO,丢弃了Critic Model,显著减少了训练显存并提升了对齐效果。

(3) 预训练

使用了代码领域模型DeepSeek-Coder-v1.5初始化,可以获得比从通用用模型初始化更好的数学能力。

(4) 性能

在中英数学基准榜单上超过Mistral 7B、Llemma-34B,逼近GPT-4能力,跟Minerva 540B效果相当。

DeepSeek V2

(1) 发布日期:2024年5月

(2) 数据&架构

  • 改造注意力模块,提出 MLA(Multi-Head Latent Attention)。
  • 改进 MoE(Mixture-of-Experts)。
  • 基于YaRN扩展长上下文。

(3) 训练

设计三种辅助损失并引入Token-Dropping策略,通过多阶段训练流程提升性能。

DeepSeek V3

(1) 发布日期:2024年12月

(2) 数据&架构

  • 采用无辅助损失的负载均衡策略。
  • 多Token预测。
  • 基于YaRN扩展长上下文。

(3) 训练

  • 使用 FP8 混合精度训练框架。
  • 使用高效通信框架。

(4) 优化

通过知识蒸馏提升推理性能。

(5) 性能

  • 在低训练成本下性能强大。
  • 基础模型超越其他开源模型。
  • 聊天版本与领先闭源模型性能相当。

DeepSeek R1

(1) 发布日期:2025年1月

(2) 数据&架构

采用多阶段训练和冷启动数据。

(3) 性能

  • DeepSeek-R1-Zero无需SFT就有卓越推理能力,与OpenAI-o1-0912在AIME上性能相当。
  • DeepSeek-R1推理性能与OpenAI-o1-1217相当。
  • 提炼出六个蒸馏模型,显著提升小模型推理能力。
责任编辑:赵宁宁 来源: 小喵学AI
相关推荐

2025-02-14 01:00:00

LLaMALLM模型

2017-12-21 14:48:43

数据安全数据泄漏检测技术

2025-02-11 08:35:30

2025-01-14 17:00:00

SpringBoot开发代码

2025-02-08 11:31:17

DeepseekR1模型

2025-02-12 12:12:59

2024-11-07 15:36:34

2025-02-12 08:30:18

2024-12-30 00:00:05

2023-03-08 17:54:29

802.1x协议无线网络

2017-03-08 10:06:11

Java技术点注解

2025-01-27 12:30:07

2022-09-19 13:23:14

5G通信网络

2024-10-08 10:44:32

2025-02-03 06:00:00

2025-02-08 08:18:39

2017-11-28 15:20:27

Python语言编程

2024-01-15 05:55:33

2021-01-06 13:52:19

zookeeper开源分布式

2025-02-10 11:27:37

点赞
收藏

51CTO技术栈公众号