鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

DeepSeek核心架构-MLA：剖析低秩联合压缩优化KV缓存、提升推理效率的技术细节

南夏的算法驿站

发布于 2025-2-13 12:01

浏览

0收藏

DeepSeek的基本架构仍然在Transformer框架内，每个Transformer模块由一个注意力模块和一个前馈网络组成。为实现更高效的推理和更经济的训练，在注意力和前馈网络部分，设计并使用了创新的MLA（Multi-Head Latent Attention）和DeepSeekMoE 架构。

本文将从MLA的提出背景、技术原理、解耦RoPE策略及MHA与MLA的缓存对比方面进行详细阐述。

DeepSeek核心架构-MLA：剖析低秩联合压缩优化KV缓存、提升推理效率的技术细节-AI.x社区

MLA是对多头自注意力机制（MHA）的改进，其核心是对键（Keys）和值（Values）进行低秩联合压缩，生成压缩的潜在向量，以降低推理阶段的KV缓存。

1.MHA

（1）MHA的详细原理。

（2）在自注意力机制中，每个位置的查询Q需要与序列中所有位置的键（K）进行相似度计算得到注意力分数，然后加权值（V）获得最终的输出值。Transformer模型生成序列时采用自回归方式，即在生成当前Token时需依赖所有之前生成的Token。因此，对于每个时间步，都需要与之前所有Token进行注意力计算。为避免重复计算之前所有Token的键和值，从而需要缓存所有的键和值来加速计算。

（3）MHA在推理过程中需要缓存所有的KV来加速推理，但是在模型部署中，这种量级的KV缓存带来了高显存占用问题，限制了最大Batch size的大小和序列长度。

2.MLA原理

（1）MLA的完整计算公式和维度变化示意图如下，可对照查看。

DeepSeek核心架构-MLA：剖析低秩联合压缩优化KV缓存、提升推理效率的技术细节-AI.x社区图片

DeepSeek核心架构-MLA：剖析低秩联合压缩优化KV缓存、提升推理效率的技术细节-AI.x社区

3.解耦RoPE策略详解

DeepSeek核心架构-MLA：剖析低秩联合压缩优化KV缓存、提升推理效率的技术细节-AI.x社区

备注：矩阵吸收计算是指利用矩阵乘法的结合律或低秩分解等线性代数技巧，重新组合某些矩阵因子，使原本需要独立计算的矩阵乘积合并在一起，从而降低计算复杂度和内存开销的过程。

DeepSeek核心架构-MLA：剖析低秩联合压缩优化KV缓存、提升推理效率的技术细节-AI.x社区

04|MHA与MLA的缓存对比

DeepSeek核心架构-MLA：剖析低秩联合压缩优化KV缓存、提升推理效率的技术细节-AI.x社区

本文转载自南夏的算法驿站，作者：南夏的算法驿站

标签

赞

收藏

回复

举报

回复

相关推荐

大模型推理优化实践：KV cache复用与投机采样

wx5bbef785639a1 • 5697浏览 • 0回复
一文详解视觉Transformer模型压缩和加速策略(量化/低秩近似/蒸馏/剪枝)

angel • 4676浏览 • 0回复
AI大模型技术的四大核心架构演进之路

AIGC观察者 • 2948浏览 • 0回复
给｢大模型初学者｣的 LLaMA 3 核心技术剖析

Baihai_IDP • 2667浏览 • 0回复
LLM 推理的 Attention 计算和 KV Cache 优化：PagedAttention、vAttention 等

amei2000go • 7246浏览 • 0回复
大模型技术细节——大模型之文本生成与文档总结

AI探索时代 • 5211浏览 • 0回复
RAG文档解析器，核心技术剖析

小虎哦哦 • 2795浏览 • 0回复
文字秒变视频，附技术细节

云原生AI百宝箱 • 1724浏览 • 0回复
DeepSeek-V3 模型深度剖析：架构创新、训练优化与性能卓越

AI论文解读 • 9562浏览 • 0回复
MHA -> GQA：提升 LLM 推理效率

amei2000go • 1715浏览 • 0回复
大推理模型DeepSeek-R1深度解读：成本降低95%，推动语言模型推理效率新高度

风云2002_1 • 1.0w浏览 • 0回复
DeepSeek 惊艳背后的技术架构创新剖析

玄姐聊AGI • 7792浏览 • 0回复
GoRA: 基于梯度驱动的自适应低秩微调方法

顿数AI • 1531浏览 • 0回复
DeepSeek核心架构-DeepSeekMoE：细粒度专家划分与共享专家隔离技术的深度解析！

南夏的算法驿站 • 1919浏览 • 0回复
DeepSeek的多头潜在注意力（MLA）和及其11种KV-Cache技巧演进大总结

大模型自然语言处理 • 2009浏览 • 0回复
DeepSeek开源优化并行策略，提升训练和通信效率

Aceryt • 1712浏览 • 0回复
多模态大模型Ovis核心技术点、训练方法、数据细节

大模型自然语言处理 • 1329浏览 • 0回复
「DeepSeek-V3 技术解析」：多头潜在注意力机制（MLA）

Baihai_IDP • 1539浏览 • 0回复
Manus 技术架构设计剖析和复刻落地实现

玄姐聊AGI • 1170浏览 • 0回复

LV.7

专注于技术知识整理，包括人工智能、大模型、机器学习等多个领域

觉得TA不错？点个关注精彩不错过

193

帖子

1571

声望

3

粉丝

关注

最近发布

阿里ESMM模型解析：解决样本偏差与数据稀疏的全空间建模！ 1天前发布
剖析Transformer模型时间复杂度：从矩阵乘法到自注意力机制和前馈神经网络的全解析 2025-04-03 07:17:10发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

下一篇： DeepSeek核心架构-DeepSeekMoE：细粒度专家划分与共享专家隔离技术的深度解析！

社区精华内容

目录

1.MHA
2.MLA原理
3.解耦RoPE策略详解

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载