鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

DeepSeek核心架构-DeepSeekMoE：细粒度专家划分与共享专家隔离技术的深度解析！

南夏的算法驿站

发布于 2025-2-20 11:07

浏览

0收藏

DeepSeek核心架构-DeepSeekMoE：细粒度专家划分与共享专家隔离技术的深度解析！-AI.x社区

图1 DeepSeek-V2&DeepSeek-V3基本架构。

DeepSeekMoE架构的提出源于DeepSeek发表的论文《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》，在DeepSeek-V2、V3及R1中得到了更好的应用。

1.DeepSeekMoE关键技术

（1）DeepSeekMoE架构有两个关键思想：细粒度专家划分和共享专家隔离。细粒度专家细分以实现更高的专家专业化程度和更准确的知识获取，共享专家隔离以减少专家之间的知识冗余。

DeepSeek核心架构-DeepSeekMoE：细粒度专家划分与共享专家隔离技术的深度解析！-AI.x社区

图2 DeepSeekMoE架构示意图。

（2）细粒度专家划分：专家数量有限的情况下，分配给特定专家的Token更可能包含各种类型的知识。因此，指定的专家将学习不同类型的知识，但很难同时利用这些知识。如果将每个Token送达到更多的专家中，各种类型的知识将在不同的专家中被解析和学习。在这种情况下，每个专家仍可以保持高度的专业化，且有助于实现跨专家的知识分布。

DeepSeek核心架构-DeepSeekMoE：细粒度专家划分与共享专家隔离技术的深度解析！-AI.x社区

（3）共享专家隔离：传统路由策略中，分配给不同专家的Token可能蕴含一些通用知识或信息。不同的专家可能会在各自的参数中获得这些通用知识，从而导致专家参数的冗余。若有专门的共享专家来捕捉和整合上下文中的通用知识，将缓解其他路由专家之间的参数冗余。这种冗余参数的减少有助于由更专业的专家构建更加参数高效的模型。

为实现该目标，在细粒度专家划分的基础上进一步隔离一部分专家作为共享专家。无论路由模块如何，每个Token都将会被送入这部分共享专家。为保证恒定的计算成本，激活的路由专家将减少相应的数量，如图2（c）所示。

2.DeepSeekMoE计算原理

DeepSeek核心架构-DeepSeekMoE：细粒度专家划分与共享专家隔离技术的深度解析！-AI.x社区

上述计算原理来源于DeepSeek-V3，相比于DeepSeek-V2略有不同。V3采用Sigmoid函数计算亲和力分数，而V2中使用的是Softmax函数。同时，V3中增加了为所有选定的亲和力分数应用归一化以生成最终门控值的方法。

（2）需要注意的是，除每次选定的个激活路由专家外，其他路由专家的门控值为0，即不激活。

本文转载自南夏的算法驿站，作者：赵南夏

标签

赞

收藏

回复

举报

回复

相关推荐

CVPR 2024 | 通过细粒度人类反馈对齐数据，提高多模态大模型可信度

zhangyannni • 2634浏览 • 0回复
今日arXiv最热NLP大模型论文：天津大学发布大模型数学能力细粒度评价基准FineMath

pangguiyu • 3107浏览 • 0回复
【LLM】 CuMo: 使用协同再利用的混合专家模型来扩展多模态大型语言模型

sbf_2000 • 2567浏览 • 0回复
探索LangGraph：构建多专家协作模型

ermulong • 2486浏览 • 0回复
AI大模型技术的四大核心架构演进之路

AIGC观察者 • 2412浏览 • 0回复
为什么最新的LLM使用混合专家(MoE)架构

51CTO内容精选 • 2156浏览 • 0回复
400万样本，数据才是AIGC的王道！UltraEdit：基于指令的细粒度图像编辑数据集

angel • 1955浏览 • 0回复
RAG文档解析器，核心技术剖析

小虎哦哦 • 2287浏览 • 0回复
大模型面经——MoE混合专家模型总结

shizhi02 • 1514浏览 • 0回复
多阶段对比学习+多专家CLIP实现细粒度多模态表征学习

海因斯DK • 2638浏览 • 0回复
适用于多图的多模态大模型：粗粒度离散表征+细粒度连续表征提升图像编码准确性

海因斯DK • 1874浏览 • 0回复
字节跳动提出VMix:细粒度美学控制，光影、色彩全搞定

angel • 1030浏览 • 0回复
漫画混合专家（MoE）

sulu637 • 853浏览 • 0回复
掰细了讲混合专家模型MoE的内部结构

智驻未来 • 1694浏览 • 0回复
DeepSeek 惊艳背后的技术架构创新剖析

玄姐聊AGI • 7003浏览 • 0回复
DeepSeek简明解析，10分钟速通DeepSeekV1~V3核心技术点！

海因斯DK • 5739浏览 • 0回复
DeepSeek核心架构-MLA：剖析低秩联合压缩优化KV缓存、提升推理效率的技术细节

南夏的算法驿站 • 2555浏览 • 0回复
「DeepSeek-V3 技术解析」：DeepSeekMoE

Baihai_IDP • 399浏览 • 0回复
Transformer中的位置编码技术：从理论到实践的深度解析！

南夏的算法驿站 • 477浏览 • 0回复

LV.3

这是一个AI学习、AI资讯类的公众号，我们将定期向您推荐最新讯息

觉得TA不错？点个关注精彩不错过

28

帖子

233

声望

2

粉丝

关注

最近发布

Transformer中的位置编码技术：从理论到实践的深度解析！ 4天前发布
探究PEPNet模型：多任务多领域推荐的个性化建模！ 2025-03-12 00:11:20发布

热门推荐

综述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 开源关键技术 0回复

算力租赁新趋势揭秘：如何高效利用云计算资源赋能未来 0回复

解锁Transformer核心！一文吃透自注意力机制 0回复

90%的人都中招的低效陷阱！DeepSeek这招五分钟脑图法让你少熬10夜 1回复

五分钟读懂Manus平替：深度解析OpenManus 如何重新定义Multi Agent? 0回复

上一篇： DeepSeek核心架构-MLA：剖析低秩联合压缩优化KV缓存、提升推理效率的技术细节

下一篇：详解MMoE 模型：多任务学习中的专家混合建模与实践【附代码】

社区精华内容

目录

1.DeepSeekMoE关键技术
2.DeepSeekMoE计算原理

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载