NeurIPS'24 基于自适应多尺度超图Transfromer的时间序列预测方法

发布于 2024-11-26 14:55
浏览
0收藏

在现实世界中,观测到的时间序列通常表现出复杂多样的多尺度时间模式。尽管基于Transformer的方法在多尺度时间模式交互建模中取得了显著成功,但是两个关键问题限制了其在时间序列预测中的进一步发展。一方面,单个的时间点包含的语义信息较少,利用attention建模pair-wise交互会造成信息利用瓶颈。另一方面,时间模式中存在多种固有的时序变化,这些时序变化相互纠缠,为建模多尺度时间模式交互带来了较大的挑战。

针对上述问题,本文介绍一篇来自浙大研究团队的最新相关研究工作,该工作目前已被NeurIPS2024接收。作者提出了一种基于自适应多尺度超图Transformer的框架(Ada-MSHyper),用于时间序列预测。具体而言,作者通过设计自适应超图学习模块,为建模group-wise交互提供基础。然后通过设计多尺度交互模块,赋予Transformer建模不同尺度时间模式间group-wise交互的能力。此外作者还引入了节点和超边约束机制,用于聚集具有相似语义信息的节点,并区分每个尺度内的时序变化。在11个真实世界数据集上的结果显示,Ada-MSHyper达到了SOTA效果。

NeurIPS'24 基于自适应多尺度超图Transfromer的时间序列预测方法-AI.x社区

论文标题:Ada-MSHyper: Adaptive Multi-Scale Hypergraph Transformer for Time Series Forecasting

下载地址:​​https://arxiv.org/pdf/2410.23992​

1.研究背景

时间序列预测在众多领域中展现了其广泛的应用价值,例如能源消耗规划、交通与经济预测,以及疾病传播预测等。在这些实际应用中,观测到的时间序列通常表现出复杂多样的多尺度时间模式。例如,由于周期性的人类活动,交通流量和电力消耗会呈现出显著的天模式、周模式以及月模式。

得益于建模pair-wise交互以及提取序列多尺度表示的能力,Transformer被广泛应用到时间序列预测中。虽然基于Transformer的方法在多尺度时间模式交互建模中取得了显著成功,但是两个关键问题限制了Transformer在时间序列预测中的进一步发展。

语义信息稀疏性:不同于自然语言处理和计算机视觉,时间序列中单个的时间点包含较少的语义信息。为了解决语义信息稀疏性的问题,之前的方法通过划分Path或者预定义超图结构的方法增强局部信息并建模group-wise交互,但是简单划分Patch或者预定义的超图结构容易引入噪声干扰,且难以捕获隐式交互。

时间变化纠缠:由于真实世界时间序列的复杂性和非平稳性,观察到的时间序列模式通常包含大量固有的变化,这些变化可能相互混合和重叠。特别是在不同尺度上存在不同的时间模式时,多种时序变化深度纠缠,为时间序列预测带来了极大的挑战。

2.建模方法

为了解决上述问题,作者提出了一种基于自适应多尺度超图Transformer的框架(Ada-MSHyper),Ada-MSHyper的核心在于建模不同尺度时间模式间group-wise交互。Ada-MSHyper首先将输入序列映射为多尺度特征表示,然后通过将多尺度特征表示视为节点,引入了一种自适应多尺度结构,以发掘不同尺度下节点间丰富而隐含的group-wise交互。Ada-MSHyper主要由四个主要部分组成:多尺度特征提取模块,自适应超图学习模块,多尺度交互模块,和多尺度融合模块

NeurIPS'24 基于自适应多尺度超图Transfromer的时间序列预测方法-AI.x社区

多尺度特征提取模块:多尺度特征提取模块用来将原始输入序列映射为多尺度特征表示,这种多尺度结构可以使模型在不同尺的上观察时间序列表示。具体来说,小尺度可以反映局部变化模式(如天模式),而大尺度可以反应全局变化模式(如周模式和月模式)。多尺度特征提取模块模块由多个映射函数组成,每个映射函数将前一个尺度的子序列作为输入,并生成更大尺度的子序列作为输出,映射函数可以由1D卷积或average pooling实现。

自适应超图学习模块:模块通过学习点边关联矩阵来捕获每个尺度下节点间group-wise的交互。但是,作者认为纯数据驱动的学习方式存在两大局限:(1)难以有效聚集具有相似语义信息的节点(2)难以有效区分每个尺度内的时序变化。为了解决上述问题,作者在自适应超图学习的过程中引入了节点和超边约束(Node and Hyperedge Constraint,NHC)机制,其具体结构如下图。在每个尺度内,NHC机制首先根据点边关联矩阵,通过聚合超边所连接的节点特征得到超边特征表示。如图(b)所示,节点约束损失通过计算超边特征表示和节点特征表示之间的差异得到。如图(c)所示,超边约束损失通过计算超边特征表示间的欧式距离和余弦相似性得到。通过最小化超边约束损失和节点约束损失,NHC机制可以聚集具有相似语义信息的节点并区分每个尺度内的时序变化。

NeurIPS'24 基于自适应多尺度超图Transfromer的时间序列预测方法-AI.x社区

多尺度交互模块:在得到超图结构以后,为了建模不同尺度上的时间模式交互,一种直观的方法是混合不同尺度的节点特征表示。然而,作者认为,尺度内交互和尺度间交互反应了时间模式交互的不同方面,其中尺度内交互主要描述具有相似语义信息的节点间细粒度的交互,而尺度间交互则更强调宏观变化交互。因此,作者提出了多尺度交互模块,分别处理尺度内交互和尺度间交互。具体而言,尺度内交互模块通过超图卷积attention计算每个尺度内具有相似语义信息的节点特征间group-wise交互,尺度间交互模块通过attention计算不同尺度间超边特征间的交互。

多尺度融合模块:在通过多尺度交互模块得到更新后的节点特征和超边特征后,多尺度融合模块通过拼接操作将这些特征拼接起来,并送入线性层得到最终输出。

3.实验效果

Ada-MSHyper在11个真实时间序列数据集上和15个基线方法进行了比较。实验结果显示,Ada-MSHyper在多个预测任务上都取得了SOTA性能,对于长时,短时和超长时时间序列预测,Ada-MSHyper的均方误差(MSE)相比于最优基线分别降低了4.56%,10.38%和4.97%。

NeurIPS'24 基于自适应多尺度超图Transfromer的时间序列预测方法-AI.x社区

NeurIPS'24 基于自适应多尺度超图Transfromer的时间序列预测方法-AI.x社区

NeurIPS'24 基于自适应多尺度超图Transfromer的时间序列预测方法-AI.x社区

作者在ETTh1数据集上进行了消融实验。结果显示,去掉AHL模块或者NHC机制会显著降低模型性能,实验结果验证了AHL模块和NHC机制的有效性。

NeurIPS'24 基于自适应多尺度超图Transfromer的时间序列预测方法-AI.x社区

作者在Electricity数据集上的可视化结果如图3所示。为了进一步验证NHC机制的有效性,作者根据节点值的大小将节点分为四组,相同颜色的节点表示其具有相似的语义信息。如图(a)所示,对于目标节点来说,其他颜色的节点被视为噪声。如图(b)所示,由于缺乏节点约束,-w/o NHC 只能捕获目标节点及其邻居节点间的交互,无法区分细微的噪声干扰。而在(c)中,通过引入节点约束,-w/o HC不仅可以聚集邻居节点还能聚集距离较远但具有较强相关性的节点。最后在图(d)中,通过NHC机制,Ada-MSHyper不仅可以聚集具有相似语义信息的节点,还能区分时序变化。

NeurIPS'24 基于自适应多尺度超图Transfromer的时间序列预测方法-AI.x社区

4.总结

本文提出了Ada-MSHyper,一种基于自适应多尺度超图的时间序列预测方法。通过引入AHL模块和多尺度交互模块,Ada-MSHyper能够建模更全面的group-wise交互,从而解决语义信息稀疏性的问题。实验结果显示,Ada-MSHyper实现了SOTA的性能,在长时、短时和超长时时间序列预测中,Ada-MSHyper的均方误差(MSE)相比于最优基线分别降低了4.56%,10.38%和4.97%。此外,可视化分析和消融实验进一步验证了NHC机制在聚类具有相似语义信息节点以及解决时间变化纠缠问题上的有效性。

收藏
回复
举报
回复
相关推荐