鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Transformer 动画揭秘：数据处理的四大关键技术原创精华

发布于 2024-8-12 07:23

浏览

0收藏

0、背景

Transformer 大模型，一种基于自注意力机制的神经网络架构，已被广泛应用于各种自然语言处理任务，比如：机器翻译、文本摘要、生成问答等。

Transformer 动画揭秘：数据处理的四大关键技术 -AI.x社区

从端到端的角度来看，Transformer 大模型中数据的处理流程主要包括四个阶段：首先是嵌入阶段（Embedding），随后是注意力机制阶段（Attention），然后是通过多层感知机（MLPs）进行处理，最后是从模型的表示转换到最终输出的解嵌入阶段（Unembedding），如下图所示：

Transformer 动画揭秘：数据处理的四大关键技术 -AI.x社区

图：Embedding -> Attention -> MLPs -> Unembedding

下面是对这四个阶段的简要介绍。

1、Embedding（嵌入）阶段

大模型的输入通常由离散的词汇或符号组成（比如：在英文文本中，每个单词或标点符号都是一个单独的符号）。嵌入层的作用是将这些离散的符号转换成连续的、具有固定维度的向量（通常称为词嵌入）。这些向量能够捕获符号的语义以及上下文信息。

Transformer 动画揭秘：数据处理的四大关键技术 -AI.x社区

在Transformer 大模型中，无论是编码器（Encoder）还是解码器（Decoder），都包含一个嵌入层。此外，在解码器中，还会添加一个位置嵌入（Positional Embedding）层，用于记录序列中单词的位置信息，这是因为 Transformer 大模型不通过 RNN 或 CNN 等传统结构来直接捕捉序列的顺序信息。

Transformer 动画揭秘：数据处理的四大关键技术 -AI.x社区

2、Attention （注意力机制）阶段

注意力机制构成了 Transformer 大模型的基石，它使得大模型能够在产生当前输出时聚焦于输入序列中的各个部分。Transformer 大模型采用了多种类型的注意力机制，其中包括自注意力（Self-Attention）、编码器-解码器注意力（Encoder-Decoder Attention）以及掩码多头注意力（Masked Multi-Head Attention）。

Transformer 动画揭秘：数据处理的四大关键技术 -AI.x社区

自注意力机制使得大模型能够识别序列内不同位置之间的相互关系，进而把握序列的内在结构。编码器-解码器注意力机制则使得大模型在输出生成过程中能够针对输入序列的特定部分给予关注。在注意力机制的运算过程中，会生成一个注意力权重矩阵，该矩阵揭示了输入序列中每个位置对于当前位置的贡献程度。

Transformer 动画揭秘：数据处理的四大关键技术 -AI.x社区

3、MLPs（多层感知机，也称为前馈神经网络）阶段

在注意力机制处理之后，大模型会利用一个或多个全连接层（也称为前馈网络或 MLPs）来进行更深层次的变换和特征提取。

Transformer 动画揭秘：数据处理的四大关键技术 -AI.x社区

这些全连接层能够捕捉输入数据中的非线性关系，并辅助模型识别更复杂的模式。在 Transformer 大模型中，MLPs 一般被置于自注意力层和归一化层之间，共同构成了所谓的“编码器块”或“解码器块”。

Transformer 动画揭秘：数据处理的四大关键技术 -AI.x社区

4、Unembedding（从模型表示到最终输出）阶段

这一过程可以被视作从大模型的内部表示到最终输出格式的转换。

在文本生成任务中，比如：机器翻译，解码器的输出将通过一个线性层和一个 Softmax 函数，以产生一个概率分布，该分布反映了下一个输出词（token）的概率。

Transformer 动画揭秘：数据处理的四大关键技术 -AI.x社区

而在其他类型的任务中，比如：文本分类，解码器的输出可能直接用于损失函数的计算（比如：交叉熵损失），或者通过其他方法转换成最终的预测结果。

Transformer 动画揭秘：数据处理的四大关键技术 -AI.x社区

本文转载自公众号玄姐聊AGI 作者：玄姐

原文链接：https://mp.weixin.qq.com/s/wY5WtAlqHNPQN7LbAS9c8g

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

赞

收藏

回复

举报

回复

相关推荐

张俊林：揭去神秘面纱，Sora关键技术逆向工程图解

mb5f8eba9bdb0af • 6972浏览 • 0回复
三大关键技术看RAG如何提升LLM的能力

angel • 8186浏览 • 0回复
Advanced RAG 07：在 RAG 系统中进行表格数据处理的新思路

Baihai_IDP • 5825浏览 • 0回复
Agent四大范式 | 综述：全面理解Agent工作原理

大语言模型论文跟踪 • 7818浏览 • 0回复
计算机视觉关键技术

mb66125a723d24d • 2721浏览 • 0回复
AI大模型技术的四大核心架构演进之路

AIGC观察者 • 3904浏览 • 0回复
2024年云中AI工程的三大关键趋势

51CTO技术栈 • 2927浏览 • 0回复
RAG 开发四大痛点及解决方案

玄姐聊AGI • 3184浏览 • 0回复
时序预测数据处理新方法汇总：多粒度和频域的可逆归一化

海因斯DK • 4457浏览 • 0回复
AI应用落地关键技术：AI Agent

玄姐聊AGI • 2630浏览 • 0回复
LLM 分布式训练六大关键技术介绍

Baihai_IDP • 3085浏览 • 0回复
LangChain实战 | Tool Calling ：让AI真正动起来的关键技术

AI取经路 • 4215浏览 • 0回复
分布式框架下的数据处理与模型推理实践

zhcs333 • 3584浏览 • 0回复
2025 AI Infra展望：重塑基础设施的四大关键趋势

唐克 • 3555浏览 • 0回复
神经网络的两个重难点之一，数据处理和模型设计

AI探索时代 • 1625浏览 • 0回复
2025年HPC-AI市场展望：五大关键问题的剖析

chengganfei • 1828浏览 • 0回复
Dify Sandbox实现文件路径获取与Excel数据处理

九歌AI大模型 • 2901浏览 • 0回复
从零到一构建Agent系统：四大模块 + 框架生态详解

PyTorch研习社 • 2744浏览 • 0回复
AI 智能体架构设计三阶段演进和三大关键技术对比剖析

玄姐聊AGI • 1299浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

AI 智能体 ReAct 架构设计模式剖析 1天前发布
九种 MCP 架构设计模式剖析 1天前发布

热门推荐

一文搞定 AI 智能体架构设计的九大核心技术 0回复

性能提升90%，Anthropic 首次公开多智能体架构构建全流程 0回复

AI 智能体架构设计三阶段演进和三大关键技术对比剖析 0回复

从原理到调参，小白也能读懂的大模型微调LoRA，不懂线性代数也没问题 0回复

Deepseek R1 0528实测：性能直逼顶尖，普通电脑本地运行全攻略 0回复

上一篇：一文彻底理解大模型 Agent 智能体原理和案例

下一篇：一个更小、更快、更干净的 GraphRAG！！

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载