聊聊基于 Informer+BiGRU-GlobalAttention的并行预测模型

Tang_Lan

发布于 2024-9-12 10:56

浏览

0收藏

1 创新模型效果：

1.1 模型评估：

聊聊基于 Informer+BiGRU-GlobalAttention的并行预测模型-AI.x社区

1.2 风电功率预测可视化：

聊聊基于 Informer+BiGRU-GlobalAttention的并行预测模型-AI.x社区

1.3 电力负荷预测可视化：

聊聊基于 Informer+BiGRU-GlobalAttention的并行预测模型-AI.x社区

2 模型创新点介绍

2.1 结合Informer和BiGRU-GATT的优势

Informer：擅长处理长时间序列，能够并行计算，提高了计算效率和预测性能。Informer在Transformer的基础上进行了改进，使其更适合时序数据，特别是具有长时间依赖的序列数据。
BiGRU-GlobalAttention：通过双向门控循环单元（BiGRU）同时从前向和后向对序列进行建模，以更好地捕获序列中的依赖关系，同时应用全局注意力机制GlobalAttention，对BiGRU的输出进行加权处理，使模型能够聚焦于序列中最重要的部分，提高预测性能。

通过将这两种模型并行使用，可以更好地捕捉不同时间尺度上的模式，提高预测的准确性和鲁棒性。

聊聊基于 Informer+BiGRU-GlobalAttention的并行预测模型-AI.x社区

2.2 并行模型架构

并行使用Informer和BiGRU-GATT，通过两个分支并行学习，可以使模型在不同的时间尺度上进行信息提取和处理：

（1）Informer部分：

主要用于捕捉全局时序模式，适合处理长时间序列数据。
通过稀疏自注意力机制提高对远程时序依赖的捕捉能力。
对输入数据进行全局特征提取。

聊聊基于 Informer+BiGRU-GlobalAttention的并行预测模型-AI.x社区

（2）BiGRU-GATT部分：

多特征序列数据同时通过基于GlobalAttention优化的BiGRU网络,GlobalAttention是一种用于加强模型对输入序列不同部分的关注程度的机制。在 BiGRU 模型中，全局注意力机制可以帮助模型更好地聚焦于输入序列中最相关的部分，从而提高模型的性能和泛化能力。在每个时间步，全局注意力机制计算一个权重向量，表示模型对输入序列各个部分的关注程度，然后将这些权重应用于 BiGRU 输出的特征表示，通过对所有位置的特征进行加权，使模型能够更有针对性地关注重要的时域特征, 提高了模型对多特征序列时域特征的感知能力。

聊聊基于 Informer+BiGRU-GlobalAttention的并行预测模型-AI.x社区

这种架构能够更全面地捕捉时序数据的特征，提升模型的预测性能。

2.3 模型融合

将Informer和BiGRU-GATT的输出拼接在一起，通过一个全连接层融合不同模型的特征。这种融合方式使得模型能够同时利用Informer的全局信息提取能力和BiGRU-GATT的局部时序关系建模能力。

2.4 高效计算

Informer的使用大大提高了长时间序列的计算效率，同时BiGRU-GATT的使用确保了局部时序信息的充分利用。这种组合在保证高效计算的同时，提升了预测的精度和可靠性。

3 Informer 详解，三大创新点

3.1 概率稀疏注意力机制（ProbSparse Self-attention）

概率稀疏自注意力是Informer模型中引入的一种稀疏自注意力机制。其核心思想是通过概率方法选择最重要的一部分注意力权重进行计算，而忽略那些对结果影响较小的权重。这种方法能够显著降低计算复杂度，同时保持较高的模型性能。

稀疏自注意力：不同于标准 Transformer 的密集自注意力机制，Informer 引入了 ProbSparse Self-attention，通过概率抽样机制选择重要的 Q-K 对进行计算，减少了计算复杂度。
效率提升：稀疏注意力机制显著降低了计算复杂度，从 O(L2⋅d) 降低到 O(L⋅log(L)⋅d)，其中 L 是序列长度，d 是每个时间步的特征维度。

3.2 多尺度特征提取-信息蒸馏

Informer的架构图并没有像Transformer一样在Encoder的左边标注来表示N个Encoder的堆叠，而是一大一小两个梯形。横向看完单个Encoder（也就是架构图中左边的大梯形，是整个输入序列的主堆栈）。

聊聊基于 Informer+BiGRU-GlobalAttention的并行预测模型-AI.x社区

Encoder的作用是Self-attention Distilling，由于ProbSparse自相关机制有很多都是用V的mean填充的，所以天然就存在冗余的attention sorce ,因此在相邻的Attention Block之间应用卷积与池化来对特征进行下采样，所以作者在设计Encoder时，采用蒸馏的操作不断抽取重点特征，从而得到值得重点关注的特征图。

聊聊基于 Informer+BiGRU-GlobalAttention的并行预测模型-AI.x社区