公众号矩阵

移动端

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

南夏的算法驿站

LV.1

致力于钻研机器学习、深度学习及推荐系统相关的理论知识

帖子 5

声望 61

关注 0

粉丝 0

社区头条作者

私信

关注

主帖 5

回帖

Transformer中的位置编码技术：从理论到实践的深度解析！

位置编码（PostitionalEncoding）是Transformer架构中的关键技术之一。不同于卷积神经网络利用局部感受野、共享权重和池化操作等机制，可以自然地感受输入数据的空间位置信息，也不同于循环神经网络凭借循环结构和隐藏状态的记忆与更新机制，能够隐式地捕捉输入序列中的时间顺序信息，Tranformer架构并未显式地建模输入序列中的绝对或相对位置信息，故需通过位置编码技术显式地注入位置信息，以使模型能更好地理解序列中不同位...

9天前 700浏览 0点赞 0回复 0收藏

探究PEPNet模型：多任务多领域推荐的个性化建模！

快手的Chang等人于2023年在论文《PEPNet:ParameterandEmbeddingPersonalizedNetworkforInfusingwithPersonalizedPriorInformation》中正式提出了PEPNet模型，用于建模推荐系统中的多任务多领域问题。本文将从PEPNet模型提出的动机、问题建模、模型结构及工程优化策略方面进行详细的阐述。1.PEPNet模型的提出动机（1）多任务学习：出发点是不同的任务之间存在稀疏性和依赖性。但由于不同任务具有独特的稀疏性和相互影响，很难在...

2025-03-12 00:11:20 895浏览 0点赞 0回复 0收藏

详解MMoE 模型：多任务学习中的专家混合建模与实践【附代码】

社区头条

MMOE模型由谷歌研究团队于2018年在论文《ModelingTaskRelationshipsinMultitaskLearningwithMultigateMixtureofExperts》中提出，是一种新颖的多任务学习框架，广泛应用于推荐系统中。本文从技术背景、演化过程、计算原理、关键问题解析以及基于PyTorch的代码实现方面对MMoE架构进行深入探究。1.技术背景（1）多任务学习的本质是共享表示以及相关任务的相互影响，多任务学习模型并不总是在所有任务上都优于相应的单任务模型。（...

2025-02-27 12:18:03 1594浏览 0点赞 0回复 0收藏

DeepSeek核心架构-DeepSeekMoE：细粒度专家划分与共享专家隔离技术的深度解析！

图1DeepSeekV2&DeepSeekV3基本架构。DeepSeekMoE架构的提出源于DeepSeek发表的论文《DeepSeekMoE:TowardsUltimateExpertSpecializationinMixtureofExpertsLanguageModels》，在DeepSeekV2、V3及R1中得到了更好的应用。1.DeepSeekMoE关键技术（1）DeepSeekMoE架构有两个关键思想：细粒度专家划分和共享专家隔离。细粒度专家细分以实现更高的专家专业化程度和更准确的知识获取，共享专家隔离以减少专家之间的知识冗余。图2DeepSee...

2025-02-20 11:07:38 1410浏览 0点赞 0回复 0收藏

DeepSeek核心架构-MLA：剖析低秩联合压缩优化KV缓存、提升推理效率的技术细节

DeepSeek的基本架构仍然在Transformer框架内，每个Transformer模块由一个注意力模块和一个前馈网络组成。为实现更高效的推理和更经济的训练，在注意力和前馈网络部分，设计并使用了创新的MLA（MultiHeadLatentAttention）和DeepSeekMoE架构。本文将从MLA的提出背景、技术原理、解耦RoPE策略及MHA与MLA的缓存对比方面进行详细阐述。MLA是对多头自注意力机制（MHA）的改进，其核心是对键（Keys）和值（Values）进行低秩联合压缩...

2025-02-13 12:01:11 2778浏览 0点赞 0回复 0收藏

获得成就

已积累 1747 人气

获得 0 个点赞

获得 0 次收藏