鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

MLKV：跨层 KV Cache 共享，降低内存占用

发布于 2024-6-17 10:03

浏览

0收藏

一、背景

LLM 中 KV Cache 占据的显存越来越大，有很多方案开始尝试跨层共享 K 和 V，比如我们之前介绍的 YOCO、CLA 以及 Layer-Condensed KV Cache 等，本文介绍的方案也极其类似。

对应的论文为：[2406.09297] MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding

对应的代码库为：https://github.com/zaydzuhri/pythia-mlkv

PS：感觉本文创新度明显不足，相关实验也非常少，只在一个 160M 模型测试，甚至没有测试 7B 模型。

二、摘要

Transformer 模型的自回归推理因为 KV Cache 的存在可以大幅降低计算量，但随着模型、Batch Size 以及序列长度的增长，KV Cache 大幅增加，导致可能存在内存瓶颈。本文中，作者引入了多层 KV（Multi-Layer Key-Value，MLKV）Cache，可以跨 Transformer Layer 实现 KV Cache 共享，以减少内存占用，甚至可以比 MQA 和 GQA 节约更多的内存占用。作者使用经过训练的 Pythia-160M 变体，针对各种 NLP 基准和推理能力的指标进行评估，表明 MLKV 可以以最小的性能损失显著降低内存使用量（???），与 MQA 相比，可以将 KV Cache 大小减少 6 倍。这些结果凸显了 MLKV 在部署大规模 LLM 模型方面的潜力。

三、方法

如下图 Figure 2 所示，其思路很简单，也和我们之前介绍过的几个工作很类似，主要区别如下：

MHA：原始的 Multi Head Attention，每一层的每一个 Head 都有独立的 K 和 V。
MQA：Multi Query Attention，每一层的所有 Head 共享 K 和 V.
GQA：Grouped Query Attention，MHA 和 MQA 的折衷，每一层的 Head 分为多组，每一组共享 K 和 V.
MLKV：多个层共享 K 和 V，并且可以与上述 MQA 和 GQA 兼容。

MLKV：跨层 KV Cache 共享，降低内存占用-AI.x社区

如下图 Table 2 所示为不同配置下总共 KV Head 的个数，参数量，以及 Loss：

MLKV：跨层 KV Cache 共享，降低内存占用-AI.x社区

四、结果

如下图所示为不同配置下在各种评估任务上的结果，可以看出在同等配置下是弱于 GQA 的，甚至弱于 MQA：

MLKV：跨层 KV Cache 共享，降低内存占用-AI.x社区

如下图是相应的显存占用，同样 Head 数的方案内存占用相同，Head 越少，内存占用越少：

MLKV：跨层 KV Cache 共享，降低内存占用-AI.x社区

如下图 Figure 5 所示，同样 Head 下 MLKV 的速度会更快一些，不过差距都不大：

MLKV：跨层 KV Cache 共享，降低内存占用-AI.x社区

四、参考链接

[2406.09297] MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding
https://github.com/zaydzuhri/pythia-mlkv

标签

赞

收藏

回复

举报

回复

相关推荐

大模型推理优化实践：KV cache复用与投机采样

wx5bbef785639a1 • 6967浏览 • 0回复
ACL 2024 | 提升大模型持续学习性能，哈工大、度小满提出共享注意力框架SAPT

轻薄滴假象 • 2986浏览 • 0回复
MiniCache 和 PyramidInfer 等 6 种优化 LLM KV Cache 的最新工作

amei2000go • 9631浏览 • 0回复
麻省理工提出“跨层注意力”，极大优化Transformer缓存

Aceryt • 3862浏览 • 0回复
ICML 2024高分论文 | 零阶优化器微调大模型，大幅降低内存

轻薄滴假象 • 3113浏览 • 0回复
LLM 推理的 Attention 计算和 KV Cache 优化：PagedAttention、vAttention 等

amei2000go • 9707浏览 • 0回复
一文剖析AI大模型技术架构的全景视图：从基础实施层、云原生层、模型层、应用技术层、能力层、到应用层

玄姐聊AGI • 5283浏览 • 0回复
解读 “Flash Cache” ：减少辐射缓存反渲染偏差

智能交互引擎 • 2311浏览 • 0回复
MixAttention：跨层 KV Cache 共享 + 滑动窗口 Attention

amei2000go • 3338浏览 • 0回复
#AIGC创新先锋者征文大赛# 部署 LLMs 前如何计算与优化 GPU 内存需求？

Baihai_IDP • 2513浏览 • 0回复
KVSharer：基于不相似性实现跨层 KV Cache 共享

amei2000go • 3175浏览 • 0回复
成本降低1000倍！微软将开源超强RAG— LazyGraphRAG

Aceryt • 2715浏览 • 0回复
DHelix：跨 Micro-Batch 的通信隐藏，SOTA LLM 训练性能

amei2000go • 3611浏览 • 0回复
ChatGPT解锁高级视频对话、屏幕共享，实时交互时代

Aceryt • 9652浏览 • 0回复
多模态视觉层：CLIP、SigLIP谁更胜一筹

CourseAI • 1.1w浏览 • 0回复
大模型前缀缓存技术，有望将服务成本降低90%

51CTO内容精选 • 2531浏览 • 0回复
DeepSeek的多头潜在注意力（MLA）和及其11种KV-Cache技巧演进大总结

大模型自然语言处理 • 3023浏览 • 0回复
基于秘密共享重构 DeepSeek DeepGEMM Kernel 的安全高效 MPC-GEMM 方案

上堵吟1 • 2521浏览 • 0回复
mem0推出王炸mcp工具OpenMemory，打造用户私有、跨应用的共享记忆层

Syrupup • 1718浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

LLM Inference 中的低精度陷阱：数值稳定性和可复现性 4天前发布
NVIDIA：Blackwell GPU MXFP8 预训练最佳实践 2025-06-13 06:57:47发布

热门推荐

本命周！MiniMax M1有多猛？网友：仅用40k思考预算就干翻Gemini，实测：真·超DS！ 2回复

AI Agents开源工具栈全解析~ 1回复

从原理到调参，小白也能读懂的大模型微调LoRA，不懂线性代数也没问题 0回复

超越FastGPT、Dify！Agentic CoT 架构实现RAG回答准确率突破94%大关 1回复

甭提静态AI了，MIT新框架让模型具备自学能力 3回复

上一篇：阿里 C4：通信驱动加速大规模并行训练效率

下一篇：剖析大规模 GPU 集群：针对 LLM 场景的挑战和优化

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载