姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

人工智能 新闻
论文由清华&上海期智研究员团队、UCLA顾全全团队合作,共同一作为清华博士生张伊凡与姚班校友、现UCLA博士生刘益枫。

新型注意力机制TPA姚期智院士团队打造。

图片

TPA对每个token做动态的张量分解,不存储完整的静态KV,而是保留分解的版本,内存占用节省90%(或者更多),而不会牺牲性能。

图片

论文中还证明了流行的MHA、MQA、GQA都是TPA的特殊情况,用一个框架统一了现代注意力设计

图片

用此方法训练的新模型T6,代码已在GitHub开源。

图片

论文发布后,有创业者表示,终于不用付那么多钱给云厂商了。

图片

也有研究者认为,论文中的实验看起来很有希望,不过实验中的模型规模有点小,希望看到更多结果。

图片

动态张量分解,无缝集成RoPE

尽管现有的注意力机制在众多任务中取得了不错的效果,但它还是有计算和内存开销大的缺陷。

DeepSeek-v2中提出的MLA压缩了KV缓存,但与RoPE位置编码不兼容,每个注意力头需要额外的位置编码参数。

为了克服这些方法的局限性,团队提出张量积注意力(TPA,Tensor Product Attention)。

新方法在注意力计算过程中对QKV做分解。

与LoRA系列低秩分解方法相比,TPA将QKV分别构造为与上下文相关的分解张量,实现动态适应。

图片

通过只缓存分解后的秩,设置合适的参数可使内存占用降低90%或以上。

图片

对于流行的RoPE位置编码,TPA可以与之无缝集成,实现以较低的成本旋转分解KV,无需进行复杂的调整。

图片

在实验中,使用FineWeb-Edu 100B数据集训练模型,TPA与其他注意力设计相比始终保持较低的困惑度。

图片

在ARC、BoolQ、HellaSwag和MMLU等基准测试中测试了零样本和少样本性能。TPA和TPA-KVonly在大多数任务中都优于或匹配所有基线。

图片

论文由清华&上海期智研究员团队、UCLA顾全全团队合作,共同一作为清华博士生张伊凡与姚班校友、现UCLA博士生刘益枫。

此外还有来自心动网络Taptap的Qin Zhen。

图片

论文地址:https://arxiv.org/abs/2501.06425
开源代码:https://github.com/tensorgi/T6

责任编辑:张燕妮 来源: 量子位
相关推荐

2024-04-03 14:31:08

大型语言模型PytorchGQA

2024-09-19 10:07:41

2023-01-31 12:30:26

模型代码

2023-10-26 00:30:00

Excel开源框架

2019-01-29 10:06:31

开源技术 趋势

2024-12-05 16:19:14

2018-08-26 22:25:36

自注意力机制神经网络算法

2025-01-17 13:20:00

2024-07-01 12:17:54

2025-01-06 06:10:00

开源.NEThttps://mp

2024-12-23 14:10:00

AI模型数据

2013-07-02 10:24:52

团队管理团队远程团队

2021-09-17 13:05:55

模型人工智能框架

2020-11-13 07:08:51

Spring Boot应用Spring

2016-09-13 10:56:03

运维性能密度

2022-02-08 15:43:08

AITransforme模型

2024-12-17 14:39:16

2013-04-22 10:15:27

GoogleGoogle管理

2022-05-12 09:22:16

Memray内存剖析器开源

2022-06-17 14:28:16

算法模型
点赞
收藏

51CTO技术栈公众号