南夏的算法驿站
LV.1
致力于钻研机器学习、深度学习及推荐系统相关的理论知识
声望 34
关注 0
粉丝 0
私信
主帖 2
回帖
图1DeepSeekV2&DeepSeekV3基本架构。DeepSeekMoE架构的提出源于DeepSeek发表的论文《DeepSeekMoE:TowardsUltimateExpertSpecializationinMixtureofExpertsLanguageModels》,在DeepSeekV2、V3及R1中得到了更好的应用。1.DeepSeekMoE关键技术(1)DeepSeekMoE架构有两个关键思想:细粒度专家划分和共享专家隔离。细粒度专家细分以实现更高的专家专业化程度和更准确的知识获取,共享专家隔离以减少专家之间的知识冗余。图2DeepSee...
1天前 138浏览 0点赞 0回复 0收藏
​DeepSeek的基本架构仍然在Transformer框架内,每个Transformer模块由一个注意力模块和一个前馈网络组成。为实现更高效的推理和更经济的训练,在注意力和前馈网络部分,设计并使用了创新的MLA(MultiHeadLatentAttention)和DeepSeekMoE架构。本文将从MLA的提出背景、技术原理、解耦RoPE策略及MHA与MLA的缓存对比方面进行详细阐述。MLA是对多头自注意力机制(MHA)的改进,其核心是对键(Keys)和值(Values)进行低秩联合压缩...
8天前 931浏览 0点赞 0回复 0收藏
获得成就
已积累 252 人气
获得 0 个点赞
获得 0 次收藏