谷歌推出全新模型，将Transformer与NAR相结合

Aceryt

发布于 2024-7-8 09:35

浏览

0收藏

Transformer架构的出现极大推动了大模型的技术创新，诞生出了ChatGPT、Coplit、讯飞星火、文心一言等一系列生成式AI产品。

虽然Transformer在自然语言理解任务上表现很好,但在算法推理方面有严重的缺陷。例如，当面临超出训练数据分布的输入时,其泛化能力会急剧下降。这主要是因为它们的自回归性质和掩蔽注意力机制,不符合算法输出的逻辑顺序。

而神经算法推理(NAR) 在结构化输入上表现好，能够处理各种算法任务，并且在面对训练集之外的更大输入时仍能保持完美的泛化能力。因此，谷歌DeepMind的研究人员将Transformer与NAR相结合推出了——TransNAR。

谷歌推出全新模型，将Transformer与NAR相结合-AI.x社区

NAR是一种专门处理图结构数据的神经网络，其算法的计算步骤被表示为图的节点和边，而节点之间的信息通过边进行传递和更新。这种巧妙设计使得NAR能够自然地表达算法的逻辑流程，包括条件判断、循环迭代等编程结构。

在TransNAR架构中，研究人员并没有简单地将Transformer和NAR串联或并联，而是通过一种称为跨注意力的机制进行深度融合。

在这种机制下，Transformer的每一层都能够接收来自NAR的节点和边的嵌入信息，这些信息通过查询、键和值的形式进行交互，从而实现信息的流动和整合。

谷歌推出全新模型，将Transformer与NAR相结合-AI.x社区

TransNAR的输入主要包括文本形式的算法问题描述，以及相应的图表示两大块：首先文本输入被送入Transformer层，通过标准的Transformer操作，如自注意力和前馈网络，来生成文本的表示。

同时，图表示被送入NAR层，通过图神经网络的操作，如最大池化或消息传递，来生成图的节点和边的表示。

当Transformer和NAR各自准备好了自己的表示后，跨注意力机制开始发挥作用。

Transformer的查询与NAR的键进行匹配，通过softmax函数进行归一化，然后与NAR的值进行加权求和，最终生成Transformer的输出。这一过程在模型的每一层都会重复迭代，直到最终生成模型的输出。

多层级训练策略也是TransNAR成功的关键之一。在预训练阶段，NAR被独立训练，以执行CLRS-30中的算法。CLRS-30是一个包含多种算法任务的基准，这些算法任务被转换为图表示形式，以便NAR能够处理。

谷歌推出全新模型，将Transformer与NAR相结合-AI.x社区

通过这种方式，帮助NAR能够学习到各种算法的内在逻辑和计算步骤，在面对不同算法任务时，能够展现出强大的鲁棒性和泛化能力。

在微调阶段，TransNAR开始接受包含文本描述和图表示的双重输入。此时，Transformer部分开始发挥作用，利用预训练的NAR提供的节点嵌入信息，通过跨注意力机制来调节自身的标记嵌入。

此外，在微调的时候Transformer的参数是可训练的，而NAR的参数保持冻结。这将帮助Transformer在保持NAR鲁棒性的同时，学习如何将自然语言描述转换为算法步骤，以确保模型能够稳定地学习和收敛。

谷歌推出全新模型，将Transformer与NAR相结合-AI.x社区

研究人员通过CLRS-Text基准测试，对TransNAR综合测试。结果显示， TransNAR模型在多种算法任务上显著优于基线Transformer。

尤其是在分布外的泛化能力上，TransNAR展现出了超过20%的优化改进。这表明TransNAR能够有效地处理训练数据之外的更大或更复杂的问题实例。

本文转自 AIGC开放社区，作者： AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/7Bu4On7yorBUf3QFvTeJDw

标签

数据

训练

相关推荐

谷歌推出多模态视频模型，自动生成丰富动作视频

Aceryt • 2043浏览 • 0回复
谷歌更新Transformer架构，更节省计算资源！50%性能提升

Crystalcxt • 1756浏览 • 0回复
Transformer解码真实场景！Meta推出70M参数SceneScript模型

duhorse • 986浏览 • 0回复
传SearchGPT将迎击谷歌核心业务！OpenAI与金融时报新协议已定，将进行链接和引用

51CTO技术栈 • 1609浏览 • 0回复
谷歌推出TransformerFAM架构，以更低的消耗处理长序列文本

Aceryt • 1215浏览 • 0回复
谷歌推出V2A，可为视频大模型自动匹配语音

Aceryt • 2236浏览 • 0回复
港大推出全新「会说话」的推荐系统大模型XRec，从黑盒预测到可解释

duhorse • 1263浏览 • 0回复
谷歌：Transformer在音乐推荐中的实践

Syrupup • 964浏览 • 0回复
知识图谱与大模型的深度结合策略剖析

玄姐聊AGI • 2174浏览 • 0回复
一种将RAG、KG、VS、TF结合增强领域LLM性能的框架

PaperAgent • 1370浏览 • 0回复
谷歌AI推出LAuReL：让神经网络更高效的革命性架构

Halo咯咯 • 1554浏览 • 0回复
LLM合集：谷歌推出逆向思维RevThink框架，大模型零样本性能提升13.53%

AIPaperDaily • 1003浏览 • 0回复
腾讯发布全新混元大模型Hunyuan-Large：全球最大开源Transformer模型，助力AI发展新高度

Halo咯咯 • 1048浏览 • 0回复
中山大学、美团联合团队推出行为正则化与顺序策略优化结合的离线多智能体学习算法

xuxiangda • 928浏览 • 0回复
云计算与大模型训练的结合

AI探索时代 • 569浏览 • 0回复
Voyage AI 推出 voyage-code-3：专为代码检索而优化的全新下一代嵌入模型

Halo咯咯 • 1075浏览 • 0回复
2025年大模型与Transformer架构：技术前沿与未来趋势报告

欧米伽未来研究所 • 3118浏览 • 0回复
【PaperDaily】谷歌推出AlphaGeometry2，超过金牌选手，称霸IMO

AIPaperDaily • 337浏览 • 0回复
DeepSeek全新注意力机制NSA发布，超快速长文训练与推理

PaperAgent • 430浏览 • 0回复

Aceryt

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

谷歌推出全新模型，将Transformer与NAR相结合

目录