DeepSeek开源第二日!全球首个开源 EP 通信库,MoE 训练算力省了!

原创
人工智能
传统的模型并行方式(如张量并行 TP、流水线并行 PP)无法很好地处理 MoE 模型的动态专家选择,而 EP 专门针对 MoE 进行优化,能提高计算利用率、减少 GPU 闲置,并让更大的 MoE 模型训练和推理变得更加高效。

DeepSeek开源第二日!又是重磅炸弹——DeepEP。

这可是用于 MoE 模型训练和推理的全球首个开源 EP 通信库!

今天的开源项目仍然围绕着GPU资源优化的主题,看来DS真的很懂怎么榨干英伟达芯片的算力。

💫特点:

1️⃣高效、优化的全对全通信(All-to-All Communication)

2️⃣利用 NVLink 和 RDMA 支持节点内和节点间通信

3️⃣用于训练和推理预填充的高吞吐量内核

4️⃣用于推理解码的低延迟内核

5️⃣本机 FP8 调度支持

6️⃣用于计算-通信重叠的灵活 GPU 资源控制

⭐️DeepEP通信库是什么:

首先来看EP,EP(Expert Parallelism)是一种并行计算方法,专门用于稀疏专家(MoE, Mixture of Experts)模型的训练和推理。MoE 模型会根据输入数据选择性地激活部分专家(Experts),而不是让所有参数都参与计算,这样可以在保持较大模型容量的同时提高计算效率。

EP(Expert Parallelism)本身的难点主要来自 MoE(Mixture of Experts)模型的动态计算分配,MoE 训练不同于普通 Transformer 训练,由于专家被分散在多个 GPU 上,大量数据需要跨 GPU 传输,导致 All-to-All(全对全)通信 成为瓶颈。

EP 通信库是专门为 MoE 模型设计的高效通信库,优化了专家之间的数据传输,主要用于 训练和推理时的分布式计算加速。MoE 需要动态选择激活的专家,EP 通信库可以高效地在不同 GPU/节点之间分配计算任务。

🌟意义:

传统的模型并行方式(如张量并行 TP、流水线并行 PP)无法很好地处理 MoE 模型的动态专家选择,而 EP 专门针对 MoE 进行优化,能提高计算利用率、减少 GPU 闲置,并让更大的 MoE 模型训练和推理变得更加高效。

众所周知,DeepSeek才是真正的“OpenAI”!

有了这一波的技术分享,相信我们“揭开 AGI 的神秘面纱”的那一天又近了一步。

开源地址:https://github.com/deepseek-ai/DeepEP

责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2025-02-25 11:35:36

2025-02-25 12:08:26

2015-08-07 10:07:45

2012-10-26 11:24:31

WOT金蝶云计算

2012-10-26 11:12:22

WOT云计算架构师

2014-04-04 11:06:02

微软Microsoft A云开发

2013-08-28 13:45:31

开源网络服务器nginx

2025-02-18 10:34:36

2025-02-24 12:52:46

2014-03-28 13:30:36

2025-02-10 09:00:00

2025-02-24 11:32:57

2024-03-18 15:01:58

SoraAI人工智能

2023-10-12 17:27:21

算法AI

2013-04-11 16:08:39

IDF2013贾斯汀

2013-04-11 16:59:07

IDF2013贾斯汀

2025-02-24 11:31:33

2022-11-29 15:11:54

腾讯云开源FinOps
点赞
收藏

51CTO技术栈公众号