DeepSeek中的多头潜在注意力(MLA)浅尝

人工智能
MHA通过将输入向量分割成多个并行的注意力“头”,每个头独立地计算注意力权重并产生输出,然后将这些输出通过拼接和线性变换进行合并以生成最终的注意力表示。

MLA是MHA的变体,因此先来看看MHA。

MHA(多头注意力)

MHA通过将输入向量分割成多个并行的注意力“头”,每个头独立地计算注意力权重并产生输出,然后将这些输出通过拼接和线性变换进行合并以生成最终的注意力表示。

Transformer 编码器块内的缩放点积注意力机制和多头注意力机制Transformer 编码器块内的缩放点积注意力机制和多头注意力机制

MHA计算过程MHA计算过程

MHA 能够理解输入不同部分之间的关系。然而,这种复杂性是有代价的——对内存带宽的需求很大,尤其是在解码器推理期间。主要问题的关键在于内存开销。在自回归模型中,每个解码步骤都需要加载解码器权重以及所有注意键和值。这个过程不仅计算量大,而且内存带宽也大。随着模型规模的扩大,这种开销也会增加,使得扩展变得越来越艰巨。

MLA(多头潜在注意力)

概念:

  • 多头注意力机制:Transformer 的核心模块,能够通过多个注意力头并行捕捉输入序列中的多样化特征。
  • 潜在表示学习:通过将高维输入映射到低维潜在空间,可以提取更抽象的语义特征,同时有效减少计算复杂度。

问题:

MLA 的提出:MLA 将多头注意力机制 与 潜在表示学习 相结合,解决MHA在高计算成本和KV缓存方面的局限性。

MLA的具体做法(创新点): 采用低秩联合压缩键值技术,优化了键值(KV)矩阵,显著减少了内存消耗并提高了推理效率。

图片

如上图,在MHA、GQA中大量存在于keys values中的KV缓存——带阴影表示,到了MLA中时,只有一小部分的被压缩Compressed的Latent KV了。

并且,在推理阶段,MHA需要缓存独立的键(Key)和值(Value)矩阵,这会增加内存和计算开销。而MLA通过低秩矩阵分解技术,显著减小了存储的KV(Key-Value)的维度,从而降低了内存占用。

MLA的核心步骤:

责任编辑:武晓燕 来源: 大模型自然语言处理
相关推荐

2024-02-19 00:12:00

模型数据

2024-10-31 10:00:39

注意力机制核心组件

2024-09-19 10:07:41

2024-06-28 08:04:43

语言模型应用

2018-08-26 22:25:36

自注意力机制神经网络算法

2020-09-17 12:40:54

神经网络CNN机器学习

2011-07-07 13:12:58

移动设备端设计注意力

2024-04-03 14:31:08

大型语言模型PytorchGQA

2022-03-25 11:29:04

视觉算法美团

2017-10-15 21:43:36

2023-07-30 15:42:45

图神经网络PyTorch

2025-01-13 08:23:07

LLMMHAMLP

2023-05-05 13:11:16

2021-05-06 12:50:19

Blanket环境噪音播放器开源

2023-03-03 08:17:28

神经网络RNN网络

2024-12-09 00:00:10

2024-07-04 12:18:21

2017-07-07 15:46:38

循环神经网络视觉注意力模拟

2014-05-19 11:24:18

Teradata 大数据天睿

2018-05-03 16:27:29

RNN神经网络ResNet
点赞
收藏

51CTO技术栈公众号