位置编码(PostitionalEncoding)是Transformer架构中的关键技术之一。不同于卷积神经网络利用局部感受野、共享权重和池化操作等机制,可以自然地感受输入数据的空间位置信息,也不同于循环神经网络凭借循环结构和隐藏状态的记忆与更新机制,能够隐式地捕捉输入序列中的时间顺序信息,Tranformer架构并未显式地建模输入序列中的绝对或相对位置信息,故需通过位置编码技术显式地注入位置信息,以使模型能更好地理解序列中不同位...
快手的Chang等人于2023年在论文《PEPNet:ParameterandEmbeddingPersonalizedNetworkforInfusingwithPersonalizedPriorInformation》中正式提出了PEPNet模型,用于建模推荐系统中的多任务多领域问题。本文将从PEPNet模型提出的动机、问题建模、模型结构及工程优化策略方面进行详细的阐述。1.PEPNet模型的提出动机(1)多任务学习:出发点是不同的任务之间存在稀疏性和依赖性。但由于不同任务具有独特的稀疏性和相互影响,很难在...
2025-03-12 00:11:20 895浏览 0点赞 0回复 0收藏
MMOE模型由谷歌研究团队于2018年在论文《ModelingTaskRelationshipsinMultitaskLearningwithMultigateMixtureofExperts》中提出,是一种新颖的多任务学习框架,广泛应用于推荐系统中。本文从技术背景、演化过程、计算原理、关键问题解析以及基于PyTorch的代码实现方面对MMoE架构进行深入探究。1.技术背景(1)多任务学习的本质是共享表示以及相关任务的相互影响,多任务学习模型并不总是在所有任务上都优于相应的单任务模型。(...
2025-02-27 12:18:03 1594浏览 0点赞 0回复 0收藏
图1DeepSeekV2&DeepSeekV3基本架构。DeepSeekMoE架构的提出源于DeepSeek发表的论文《DeepSeekMoE:TowardsUltimateExpertSpecializationinMixtureofExpertsLanguageModels》,在DeepSeekV2、V3及R1中得到了更好的应用。1.DeepSeekMoE关键技术(1)DeepSeekMoE架构有两个关键思想:细粒度专家划分和共享专家隔离。细粒度专家细分以实现更高的专家专业化程度和更准确的知识获取,共享专家隔离以减少专家之间的知识冗余。图2DeepSee...
2025-02-20 11:07:38 1410浏览 0点赞 0回复 0收藏
DeepSeek的基本架构仍然在Transformer框架内,每个Transformer模块由一个注意力模块和一个前馈网络组成。为实现更高效的推理和更经济的训练,在注意力和前馈网络部分,设计并使用了创新的MLA(MultiHeadLatentAttention)和DeepSeekMoE架构。本文将从MLA的提出背景、技术原理、解耦RoPE策略及MHA与MLA的缓存对比方面进行详细阐述。MLA是对多头自注意力机制(MHA)的改进,其核心是对键(Keys)和值(Values)进行低秩联合压缩...
2025-02-13 12:01:11 2778浏览 0点赞 0回复 0收藏