鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

DeepSeek中的多头潜在注意力（MLA）浅尝原创

大模型自然语言处理

发布于 2025-2-11 11:03

1816浏览

0收藏

MLA是MHA的变体，因此先来看看MHA。

MHA（多头注意力）

MHA通过将输入向量分割成多个并行的注意力“头”，每个头独立地计算注意力权重并产生输出，然后将这些输出通过拼接和线性变换进行合并以生成最终的注意力表示。

DeepSeek中的多头潜在注意力（MLA）浅尝-AI.x社区

Transformer 编码器块内的缩放点积注意力机制和多头注意力机制

DeepSeek中的多头潜在注意力（MLA）浅尝-AI.x社区

MHA计算过程

DeepSeek中的多头潜在注意力（MLA）浅尝-AI.x社区

MHA 能够理解输入不同部分之间的关系。然而，这种复杂性是有代价的——对内存带宽的需求很大，尤其是在解码器推理期间。主要问题的关键在于内存开销。在自回归模型中，每个解码步骤都需要加载解码器权重以及所有注意键和值。这个过程不仅计算量大，而且内存带宽也大。随着模型规模的扩大，这种开销也会增加，使得扩展变得越来越艰巨。

MLA（多头潜在注意力）

概念：

多头注意力机制：Transformer 的核心模块，能够通过多个注意力头并行捕捉输入序列中的多样化特征。
潜在表示学习：通过将高维输入映射到低维潜在空间，可以提取更抽象的语义特征，同时有效减少计算复杂度。

问题：

1.效率问题：传统多头注意力的计算复杂度为O(n²d),即随着序列长度的增长，键值（Key-Value，KV）缓存的大小也会线性增加，这给模型带来了显著的内存负担。） 2.表达能力瓶颈：难以充分捕捉复杂全局依赖。MLA 通过在潜在空间中执行注意力计算，有效降低复杂度，同时提升建模能力。

MLA 的提出：MLA 将多头注意力机制与潜在表示学习相结合，解决MHA在高计算成本和KV缓存方面的局限性。

MLA的具体做法（创新点）：采用低秩联合压缩键值技术，优化了键值（KV）矩阵，显著减少了内存消耗并提高了推理效率。

DeepSeek中的多头潜在注意力（MLA）浅尝-AI.x社区

如上图，在MHA、GQA中大量存在于keys values中的KV缓存——带阴影表示，到了MLA中时，只有一小部分的被压缩Compressed的Latent KV了。

并且，在推理阶段，MHA需要缓存独立的键（Key）和值（Value）矩阵，这会增加内存和计算开销。而MLA通过低秩矩阵分解技术，显著减小了存储的KV（Key-Value）的维度，从而降低了内存占用。

MLA的核心步骤：

输入映射->潜在空间

DeepSeek中的多头潜在注意力（MLA）浅尝-AI.x社区

潜在空间中的多头注意力计算

DeepSeek中的多头潜在注意力（MLA）浅尝-AI.x社区

映射回原始空间
将多头注意力结果从潜在空间映射回原始空间：

DeepSeek中的多头潜在注意力（MLA）浅尝-AI.x社区

参考文献：https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

本文转载自公众号大模型自然语言处理作者：余俊晖

原文链接：https://mp.weixin.qq.com/s/CSK1t9o82un5QDphhOP6fQ

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

大语言模型

自然语言处理

赞

收藏

回复

举报

回复

相关推荐

基于多级注意力机制的并行预测模型

Tang_Lan • 3952浏览 • 0回复
基于多级注意力机制的并行预测模型

Tang_Lan • 2828浏览 • 0回复
组合模型、注意力机制在单步、多步、单变量、多变量预测中的应用

Tang_Lan • 2614浏览 • 0回复
聊聊组合模型、注意力机制在单步、多步、单变量、多变量预测中的应用

Tang_Lan • 2483浏览 • 0回复
组合模型、注意力机制在单步、多步、单变量、多变量预测中的应用

Tang_Lan • 3440浏览 • 0回复
即插即用 | 时间编码+LSTM+全局注意力

Tang_Lan • 3407浏览 • 0回复
LLM基础模型系列：深入注意力机制

鲁班模锤1 • 2537浏览 • 0回复
聊聊 KAN、KAN 卷积结合注意力机制！

Tang_Lan • 4424浏览 • 0回复
注意力机制的变体之MLA

shizhi02 • 5972浏览 • 0回复
【技术前沿】FlashAttention-2：深度学习中的高效注意力机制新突破

sword_hero • 2019浏览 • 0回复
一文图解BERT注意力机制

石映飞云 • 2022浏览 • 0回复
【深度探索】FlashAttention-3：深度学习注意力机制的再进化

sword_hero • 2009浏览 • 0回复
大模型神经网络之注意力机制——attention

AI探索时代 • 1624浏览 • 0回复
从《你所需要的就是注意力》到《你所需要的就是多头潜在注意力》，TransMLA开启AI技术新篇章

xuxiangda • 1600浏览 • 0回复
高效注意力机制与硬件优化：硬件优化的稀疏注意力，长上下文建模

AI研究前瞻 • 1526浏览 • 0回复
DeepSeek全新注意力机制NSA发布，超快速长文训练与推理

PaperAgent • 1771浏览 • 0回复
DeepSeek的多头潜在注意力（MLA）和及其11种KV-Cache技巧演进大总结

大模型自然语言处理 • 2012浏览 • 0回复
一文吃透自注意力机制

人工智能训练营 • 2412浏览 • 0回复
「DeepSeek-V3 技术解析」：多头潜在注意力机制（MLA）

Baihai_IDP • 1547浏览 • 0回复

大模型自然语言处理

LV.4

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

53

帖子

418

声望

1

粉丝

关注

最近发布

Kimi-VL开源多模态大模型结构、训练方法、训练数据浅析 1天前发布
十大PDF解析工具在不同文档类别中的比较研究 2025-04-07 06:31:37发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇：英伟达ECLAIR-端到端的文档布局提取，并集成阅读顺序方法

下一篇：简单有效的企业多模态RAG问答框架-MuRAR

社区精华内容

目录

MHA（多头注意力）
MLA（多头潜在注意力）

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载

恭喜您，今日已阅读两篇内容，特奖励+2声望，快来「登录」领取吧。