DeepSeek的多头潜在注意力（MLA）和及其11种KV-Cache技巧演进大总结原创

大模型自然语言处理

发布于 2025-2-25 09:44

1500浏览

0收藏

引言

本文将探讨KV-Cache如何通过在内存使用和计算时间之间进行巧妙的权衡，使像ChatGPT和DeepSeek这样的语言模型在生成文本时更快。

总结11篇最近的研究论文，归纳三大类：token选择、后处理压缩技术和架构重新设计。包括DeepSeek的多头潜在注意力（MLA），这些论文在这一基本思想的基础上，进一步提高了大型语言模型（LLM）推理的时间效率。

一、思考

为什么文本生成如此缓慢

让我们从一个简单的类比开始。想象你在写一个故事，每写一个新词，你都需要重新阅读到目前为止的整个故事以保持一致性。故事越长，重新阅读的时间就越长。这正是大型语言模型在文本生成时所面临的问题。

自注意力的基本构建块

现代语言模型的核心是一种称为自注意力的机制。对于一个由n个标记（大致对应单词）组成的序列，每个标记都需要“查看”或“关注”所有其他标记以理解上下文。

这种查看一切的过程的计算成本随着序列长度的增长而增长：

对于n个标记，每个标记都需要查看所有nn个标记
这意味着成本与n x n = n²成正比
用数学符号表示，我们将其写为O(n²)的复杂度

真正的问题：一次生成一个标记

当语言模型生成文本时，它一次生成一个标记，这就是事情变得计算密集的地方：

第一个标记：查看1个标记（成本：O(1²)）
第二个标记：查看2个标记（成本：O(2²)）
第三个标记：查看3个标记（成本：O(3²)）
以此类推，直到第n个标记：查看n个标记（成本：O(n²)）

如果我们将生成长度为的序列的所有这些成本加起来，我们得到：

DeepSeek的多头潜在注意力（MLA）和及其11种KV-Cache技巧演进大总结-AI.x社区

这种O(n³)的成本意味着随着文本的增长，生成时间会极其迅速地增长。例如，生成两倍长的序列大约需要八倍的时间！显然，我们需要一个更好的方法。

解决方案：键值（KV）缓存

KV 缓存背后的关键是，我们正在做大量冗余工作。在生成每个新标记时，我们会重新计算之前已经处理过的所有先前标记。让我们看看如何解决这个问题。

什么是键值缓存？

可以将 KV 缓存想象成一个智能记事本，我们会在第一次看到每个 token 时记下有关它的重要信息。对于每个 token，我们计算并存储两件事：

键（k）：可以将其视为一种寻址机制——它有助于确定此标记与未来标记的相关性
值（v）：可以将其视为当此标记被发现相关时实际使用的信息

从数学上，我们计算这些为：

键：k = xW_k（其中是x标记，W_k是一个学习到的变换）
值：v = xW_v（其中W_v是另一个学习到的变换）

在生成一个新标记时，我们使用它的查询（计算方式类似于键）通过将其与所有存储的键进行比较来在我们的缓存中找到相关信息。然后使用匹配的值来帮助生成标记。

KV缓存如何加速

有了KV缓存，处理过程变得更加高效：

当我们遇到一个新token时，只需要计算它的key和value一次
对于所有后续的token，我们可以直接从缓存中查找这些预计算的值
这意味着每个新token只需要做少量新的计算，而不是重新做所有之前的计算

显然有一个权衡：

我们需要更多的内存来存储所有的keys和values。对于一个具有：

L层

H注意力头

序列长度n

key/value维度d_k，总的内存开销为L x H x n x d_k x 2值（这个2是因为需要存储keys和values）。这会随着序列长度n线性增长(O(n))，但对于大模型来说，常数因子可能非常大。

但作为回报，我们将计算成本从O(n³)降低到O(n²)。

要理解为什么是O(n²)，让我们看一下每一步的成本：

第一步：处理一个token ->成本O(1)
第二步：处理一个新token + 查找1个缓存的token -> 成本O(2)
第三步：处理一个新token + 查找2个缓存的token -> 成本O(3)
依此类推...

将这些加起来：

O(1 + 2 + 3 + ... + n) = O(n²)

这相比O(n³)是一个显著的改进！虽然我们仍然需要做查看所有前面的tokens的基础工作<O(n²)>，但我们避免了每一步都进行昂贵的重新计算。

内存挑战：为什么我们需要更好的解决方案

虽然KV缓存是一个强大的优化手段，但它伴随着显著的内存开销。让我们通过一个具体的例子来看看，使用像Llama3 70B这样的现代大语言模型：

L = 80层
H = 64注意力头
B = 8批量大小为8个序列
d_k= 128key/value维度
16位精度

处理一个批量（8个序列，每个序列1000个token）所需的内存为：

L x H x B x n x d_kx 2 x 2字节=80 x 64 x 8 x 1000 x 128 x 2 x 2字节=20.97GB

这种巨大的内存使用带来了几个挑战：

随着序列长度线性增长
与批量大小成倍增长，支持并行处理
限制了我们可以处理的最大上下文长度
限制了在内存受限设备上的部署

这些挑战激发了研究界的一波创新，导致了各种优化KV缓存使用的技术。接下来，将探讨这些前沿的解决方案。

二、如何改善传统的KV缓存？

以下论文代表了KV缓存优化的关键创新。我们将通过三大主要方法来探索它们：token选择、后处理压缩技术和架构重设计。

2.1 Token 选择和修剪方法（Token Selection and Pruning Approaches）

1) Heavy-Hitter Oracle (H2O)

https://arxiv.org/abs/2306.14048

DeepSeek的多头潜在注意力（MLA）和及其11种KV-Cache技巧演进大总结-AI.x社区

H2O 引入了在KV缓存中识别和保留重要token的概念：

重型Token（Heavy-Hitter Tokens）：H2O 识别在生成过程中具有最高累计注意力分数的token，这些token遵循幂律分布。这些token对于模型的功能至关重要，因此在缓存中优先处理。
动态次模撤销（Dynamic Submodular Eviction）：该方法将缓存管理问题框架化为一个优化问题，目标函数为次模函数F(S)，用于量化token集合的S重要性：

DeepSeek的多头潜在注意力（MLA）和及其11种KV-Cache技巧演进大总结-AI.x社区