AI 架构 Transformer 再进化:谷歌新方法突破长文本处理,注意力模块内存需求可降至 1/47

人工智能
谷歌公司推出了选择性注意力(Selective Attention)方法,可以提高 Transformer 架构模型的性能。

10 月 9 日消息,科技媒体 marktechpost 昨日(10 月 8 日)发布博文,报道称谷歌公司推出了选择性注意力(Selective Attention)方法,可以提高 Transformer 架构模型的性能。

Transformer 架构简介

Transformer 是一种革命性的神经网络架构,由谷歌在 2017 年提出,主要用于处理序列数据,特别是在自然语言处理(NLP)领域。

Transformer 的核心是自注意力机制,允许模型在处理输入序列时捕捉词与词之间的关系,让模型能够关注输入序列中的所有部分,而不仅仅是局部信息。

Transformer 由多个编码器和解码器组成。编码器负责理解输入数据,而解码器则生成输出。多头自注意力机制使模型能够并行处理信息,提高了效率和准确性。

Transformer 架构模型挑战

Transformer 架构的一大挑战是它们在处理长文本序列时效率低下,由于每个标记与序列中的每个其他标记都相互作用导致二次复杂度,这就导致随着上下文长度的增加,计算和内存需求呈指数增长。

现在解决这一问题的方法包括稀疏注意力机制(sparse attention mechanisms),它限制了标记之间的交互数量,以及通过总结过去信息来减少序列长度的上下文压缩技术。

不过这种方法是通过减少在注意力机制中考虑的标记数量达成的,因此通常以性能为代价,可能会导致上下文关键信息丢失。

谷歌新方法

谷歌研究的研究人员提出了一种名为选择性注意的新方法,可以动态忽略不再相关的标记,从而提高 Transformer 模型的效率。

选择性注意力使用软掩码矩阵来确定每个标记对未来标记的重要性,减少对不重要标记的关注。

研究表明,配备选择性注意的 Transformer 架构模型在多个自然语言处理任务中表现出色,同时显著降低了内存使用和计算成本。

例如,在拥有 1 亿参数的 Transformer 模型中,注意力模块的内存需求在上下文大小为 512、1024 和 2048 个 tokens 时分别减少至 1/16、1/25 和 1/47。所提方法在 HellaSwag 基准测试中也优于传统 Transformer,对于较大的模型规模实现了高达 5% 的准确率提升。

选择性注意力允许构建更小、更高效的模型,在不损害准确性的情况下,显著减少内存需求。

IT之家附上参考地址

责任编辑:庞桂玉 来源: IT之家
相关推荐

2010-07-21 10:05:13

Perl文本处理模块

2010-01-06 17:12:26

.Net Framew

2013-10-30 10:35:29

Linux命令文本处理

2013-08-20 16:14:46

pythonpython文本处理

2017-03-02 18:10:20

LinuxShell命令

2021-01-28 08:12:15

Linux命令技巧

2024-10-23 19:47:54

2023-11-24 12:36:00

模型训练

2022-02-08 15:43:08

AITransforme模型

2024-02-19 00:12:00

模型数据

2024-10-31 10:00:39

注意力机制核心组件

2024-09-12 17:39:27

2024-04-12 12:14:39

Rust字符串代码

2023-09-25 10:04:37

模型AI

2023-06-12 09:57:22

AIChatGPT

2024-11-06 17:04:47

AWK编程

2021-09-27 10:12:42

欺骗防御rMTD网络攻击

2024-11-21 13:02:42

2023-12-27 18:12:50

2019-10-29 09:20:48

Python文本正则表达式
点赞
收藏

51CTO技术栈公众号