鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Transformer结构优势 ,How Much Attention Do You Need?

发布于 2024-9-25 13:05

浏览

0收藏

前言

本期基于凯斯西储大学（CWRU）轴承数据，进行 Transformer 的结构优势进行讲解，结合论文《How Much Attention Do You Need? 》，探索不同模块对故障分类任务的影响力。

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

1 《How Much Attention Do You Need? 》

1.1 论文解析

论文提到三个观点：

（1）Source attention on lower encoder layers brings no additional benefit (x4.2).

解释：

Source Attention：通常指的是在编码器（encoder）中，模型关注输入序列的不同部分的机制。在Transformer中，编码器的每一层都通过自注意力（self-attention）机制来处理输入序列。
Lower Encoder Layers：指的是编码器中的靠前或较浅的层。
结论意义：在模型的较浅层次，对源输入进行复杂的注意力机制处理并没有显著的性能提升。也就是说，较低层次的编码器主要在做基础特征提取，而复杂的注意力模式在这些层次上未能发挥其潜力。因此，将注意力机制的复杂性集中在编码器的更深层次可能更为有效。

（2）Multiple source attention layers and residual feed-forward layers are key (x4.3).

解释：

Multiple Source Attention Layers：在模型中使用多个层次的注意力机制来处理源输入序列。
Residual Feed-Forward Layers：在每个注意力层之后，通常会有一个残差结构的前馈神经网络（Feed-Forward Neural Network），这对于学习复杂的特征变换是重要的。
结论意义：这表明，对源输入进行多层次的注意力处理，以及在每个注意力层之后使用残差前馈层，是模型性能的关键因素。这可能是因为多层次的关注机制允许模型在不同的抽象层次上理解输入序列，并通过残差连接有效地训练深层模型。

（3）Self-attention is more important for the source than for the target side (x4.4).

解释：

Self-Attention：一种注意力机制，输入的每个元素（如序列中的一个词）对自身序列中的其他元素进行关注，以捕捉序列内部的相关性。
Source Side vs. Target Side：在序列到序列模型中，源指的是输入序列（例如，翻译任务中的源语言），而目标指的是输出序列（例如，翻译任务中的目标语言）。
结论意义：这个结论表明，自注意力机制在源输入序列的处理过程中比在目标输出序列生成过程中更为重要。这可能是因为在源输入的编码阶段，理解和建模句子内部的长程依赖性和上下文关系至关重要，而在目标侧，可能更多依赖上下文和已生成的部分来预测下一个元素。

2.1 具体结构探究

（1）双向 RNN 替换多头注意力

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

RNN嵌入Transformer后，上图展示了对原生RNN逐步加入Transformer的各个构件后的效果。从上面的逐步对比过程可以看到，原生RNN的效果在不断稳定提升。但是原本的Transformer相比，性能仍然有差距。

（2）CNN 替换多头注意力

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

上图展示了对CNN进行不断加入Transformer的各个构件后的过程以及其对应效果。同样的，性能也有不同幅度的提升。但是也与原本的Transformer性能存在一些差距。

（3）论文结论：

我们发现基于RNN的模型受益于多源注意机制和剩余前馈块。另一方面，基于CNN的模型可以通过层归一化和前馈块来改进。这些变化使基于RNN和CNN的模型更接近Transformer。此外，我们还展示了可以成功地组合体系结构。

我们发现自我注意在编码器方面比在解码器方面重要得多，即使没有自我注意的模型也表现得非常好。对于我们评估的数据集，在大多数情况下，编码器侧具有自关注的模型以及解码器侧具有RNN或CNN的模型与Transformer模型相比具有竞争力。

2 结合故障诊断进行探索

2.1 探索目标分析

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

根据上述结论，编码器结构在特征提取过程中扮演着重要角色，而编码器结构又由多头注意力、前馈神经网络、残差连接等部分组成。结合故障诊断任务，我们可以锁定2个研究对象：

编码器整体结构
多头注意力机制

2.2 多头注意力机制的优势

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

（1）多角度关注：

不同的头可以从不同的角度和细粒度的层次来关注输入序列的不同部分，从而捕捉更丰富的特征和关系。

（2）提高模型的表达能力：

多头机制使得模型可以在不同的子空间中并行学习，这增强了其表达复杂关系和模式的能力。

（3）稳定训练：

通过缩放点积和多头的并行计算，模型能更好地处理长序列并稳定梯度。

3 轴承故障数据的预处理

3.1 导入数据

参考之前的文章，进行故障10分类的预处理，凯斯西储大学轴承数据10分类数据集：

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

train_set、val_set、test_set 均为按照7：2：1划分训练集、验证集、测试集，最后保存数据

3.2 故障数据预处理与数据集制作

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

4 编码器整体结构的实验对比

4.1 对比模型为：

模型 A :Transformer 编码器结构
模型 B :多头注意力机制

4.2 西储大学十分类数据集实验对比

（1）模型 A：

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

模型评估：

准确率、精确率、召回率、F1 Score

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

（2）模型 B：

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

模型评估：

准确率、精确率、召回率、F1 Score

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

4.3 东南大学齿轮箱轴承故障-五分类数据集实验对比

（1）模型 A：

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

模型评估：

准确率、精确率、召回率、F1 Score

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

（2）模型 B：

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

模型评估：

准确率、精确率、召回率、F1 Score

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

5 实验对比结果分析

Transformer结构优势 ,How Much Attention Do You Need?-AI.x社区

通过两个数据集的对比实验，我们可以发现，Transformer 编码器层在故障信号分类任务上取得了不错的效果，但是仅用多头注意力机制分类效果有一定程度的下降，证明Transformer 编码器整体结构在故障信号分类任务上的优越性！大家还可以进一步细致的探索结构中的其他部分。

本文转载自建模先锋，作者：小蜗爱建模

标签

赞

收藏

回复

举报

回复

相关推荐

场景图知识增强多模态结构化表示能力

mb5f8eba9bdb0af • 1342浏览 • 0回复
小到用iPhone就能跑起来，网友：Good data is all you need!

51CTO技术栈 • 1622浏览 • 0回复
Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动

轻薄滴假象 • 1460浏览 • 0回复
用 LLMs 做数据标注：优势、局限与实操指南

Baihai_IDP • 2785浏览 • 0回复
Self-Attention在时间序列预测中有效吗？新Transformer架构效率效果双提升

海因斯DK • 2486浏览 • 0回复
15大结构梳理CNN网络的发展

angel • 1031浏览 • 0回复
向量——人工智能技术的基石结构

AI探索时代 • 2126浏览 • 1回复
多模态AI：概念、用例、优势、挑战及发展未来

51CTO内容精选 • 1651浏览 • 0回复
LLM 推理的 Attention 计算和 KV Cache 优化：PagedAttention、vAttention 等

amei2000go • 4382浏览 • 0回复
Binary Block Masking：加快稀疏 Attention 的一种新方法

amei2000go • 1941浏览 • 0回复
MixAttention：跨层 KV Cache 共享 + 滑动窗口 Attention

amei2000go • 1270浏览 • 0回复
Sample Packing：长序列 LLM 训练的 Attention 问题及优化

amei2000go • 991浏览 • 0回复
Agent实战-JSON结构化智能

ermulong • 853浏览 • 0回复
使用结构化和非结构化数据增强大型语言模型(LLM)

Halo咯咯 • 672浏览 • 0回复
什么是大模型、特点、优势。大模型与AIGC的关系

parson2000 • 1136浏览 • 0回复
RAG增强之路：增强PDF解析并结构化技术路线方案及思路

毛毛雨_11 • 959浏览 • 0回复
为什么Transformer难以学会搜索？一项新研究揭示关键原因 | 从优势到局限：大型语言模型的潜力与边界

sbf_2000 • 525浏览 • 0回复
大模型神经网络之注意力机制——attention

AI探索时代 • 453浏览 • 0回复
2025年大模型与Transformer架构：技术前沿与未来趋势报告

欧米伽未来研究所 • 2625浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

王炸组合！STL-VMD二次分解 + Informer-LSTM 并行预测模型 1天前发布
一区直接写！CEEMDAN + SSA-TCN-BiLSTM-Attention预测模型 8天前发布

热门推荐

带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈 1回复

手把手教你在本地部署 DeepSeek R1，并集成到 Dify 中，建议收藏！ 0回复

一文说清楚"知识蒸馏"（让“小模型”也能拥有“大智慧”） 0回复

国家队出手！DeepSeek上线国家超算互联网平台，免注册开箱即用！ 0回复

被 DeepSeek 带火的蒸馏到底是啥 0回复

上一篇：多模态-故障诊断 | 大核卷积开启视觉新纪元!

下一篇：我们一起聊聊基于时空特征提取的并行预测模型

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载