TFB:2024最新时间序列预测Benchmark

发布于 2024-5-9 10:10
浏览
0收藏

今天给大家介绍一篇VLDB 2024中时间序列预测Benchmark的工作,文章由华东师范大学,华为云,奥尔堡大学联合发布。该论文提出了TFB(时间序列预测基准测试),这是一个新颖的自动化基准测试框架,旨在通过包含来自十个不同领域的数据集,并提供一个灵活、可扩展且一致的评估流程,对包括统计学习、机器学习和深度学习在内的多种时间序列预测方法进行全面且无偏见的评估。

该论文呼吁testing不使用drop-last操作,这一影响多个时序Baselines性能的代码bug!

TFB:2024最新时间序列预测Benchmark-AI.x社区

论文标题:TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods**

论文链接:​​https://arxiv.org/pdf/2403.20150.pdf​

代码链接:​​https://github.com/decisionintelligence/TFB​

1、引言

这篇论文试图解决的问题包括:

TFB:2024最新时间序列预测Benchmark-AI.x社区

问题1. 数据领域覆盖不足:现有的时间序列预测方法评估通常只覆盖有限的领域,无法全面反映方法在多样数据集下的表现。

TFB:2024最新时间序列预测Benchmark-AI.x社区

TFB:2024最新时间序列预测Benchmark-AI.x社区

问题2. 对传统方法的刻板影响:现有的评估往往忽略了传统方法,如统计学习,机器学习方法,大部分只关注深度学习方法。

TFB:2024最新时间序列预测Benchmark-AI.x社区

问题3. 缺乏一致和灵活的流程。不同的评估基准使用不同的实验设置,如数据划分、归一化方法选择、超参数设置,drop-last操作的使用,这使得公平的比较变得困难。此外,大多数测试基准流程不灵活,无法支持统计学习、机器学习和深度学习方法的同时评估。

2、drop-last操作说明

现有的一些方法在测试阶段使用“删除最后一个批次的数据”的技巧。为了加速测试,通常将数据分成批次。然而,如果我们丢弃最后一个不完整批次:其中包含的样本数量少于批次大小,这会导致不公平的比较。例如,在图4中,ETTh2具有长度为2,880的测试序列长度,我们使用大小为512的回溯窗口预测336个未来时间步。如果我们选择批次大小为32、64和128,那么最后一个批次中的样本数量分别为17、49和113。除非所有方法都使用相同的批次大小,否则丢弃这些最后一个批次的测试样本是不公平的,因为测试集的实际使用长度不一致。图4显示了在ETTh2上使用不同批次大小和“删除最后一个批次”技巧的PatchTST、DLinear和FEDformer的测试结果。我们观察到,在变化批次大小时,方法的性能会发生变化。

因此该论文呼吁testing不使用drop-last操作,该论文在testing中没有使用drop-last操作。

TFB:2024最新时间序列预测Benchmark-AI.x社区

TFB:2024最新时间序列预测Benchmark-AI.x社区

3、时间序列特征说明

趋势性(Trend):趋势性是指时间序列随着时间的推移而发生的长期变化或模式。直观地说,它代表了数据漂移的大致方向。

季节性(Seasonality):季节性是指时间序列中的变化以特定的间隔重复的现象。

平稳性(Stationarity):平稳性是指时间序列的各阶统计特征(如均值、方差…)不随时间的变化而变化。

漂移性(Shifting):漂移性是指时间序列的概率分布随时间变化的现象。这种行为可能源于系统内部的结构变化、外部影响或随机事件的发生。

转移(Transition):转移捕捉了时间序列中存在的规律性和可识别的固定特征,例如趋势、周期性的明确表现,或者季节性和趋势同时存在。

相关性(Correlation):相关性是指多变量时间序列中不同变量可能共享的可能性共同的趋势或模式,表明它们受到相似的因素或具有某种潜在的关系。

这些特征的公式可从原论文中获取。

4、TFB:基准细节

数据集:TFB配备了25个多变量和8,068个单变量数据集。对时间序列数据进行特征化分析,确保所选数据集在不同特征上具有广泛的分布。

TFB:2024最新时间序列预测Benchmark-AI.x社区

TFB:2024最新时间序列预测Benchmark-AI.x社区

对比方法:TFB包括了22种方法。

TFB:2024最新时间序列预测Benchmark-AI.x社区

评估设定:为了评估方法的预测准确性,TFB实现了两种不同的评估策略:1) 固定预测;和2) 滚动预测。为了对预测性能进行全面评估,TFB采用了八个误差度量指标。

TFB:2024最新时间序列预测Benchmark-AI.x社区

统一的流程:为了实现方法的公平和全面比较,TFB引入了一个统一的评估流程,分为数据层、方法层、评估层和报告层。

TFB:2024最新时间序列预测Benchmark-AI.x社区

5、实验

单变量时间序列预测

TFB:2024最新时间序列预测Benchmark-AI.x社区

多变量时间序列预测

TFB:2024最新时间序列预测Benchmark-AI.x社区

TFB:2024最新时间序列预测Benchmark-AI.x社区

不同特征上的性能

根据实验结果,总结了不同方法在各种数据特征上的表现和排名。讨论了基于Transformer的方法、线性方法以及考虑通道依赖性的方法在不同场景下的性能差异。研究了深度学习方法在多变量时间序列预测中的推理时间和参数数量的表现。提供了关于如何选择适合特定数据集和场景的预测方法的见解。

TFB:2024最新时间序列预测Benchmark-AI.x社区

TFB:2024最新时间序列预测Benchmark-AI.x社区

TFB:2024最新时间序列预测Benchmark-AI.x社区

TFB:2024最新时间序列预测Benchmark-AI.x社区 图片

6、关键发现

在某些数据集中,统计方法VAR和LinearRegression的表现优于最近提出的SOTA方法。

当数据集呈现增长趋势或明显漂移时,基于线性的方法表现良好。

基于Transformer的方法在具有明显季节性、非线性模式以及更明显模式或强内部相关性的数据集上优于基于线性的方法。

考虑通道之间依赖关系的方法,与假设通道独立性的方法相比,有时可以提高多变量时间序列预测的性能,特别是在具有强相关性的数据集上。未来的文章应该关注如何提取、利用变量间关系来进行预测。

测试过程中使用drop-last操作会对实验结果产生很大影响,造成不公平比较现象,论文呼吁testing不使用drop-last操作,这一影响多个时序Baselines性能的代码bug!

7、总结

本文提出了TFB,这是一个专门设计用于进一步提高时间序列预测方法公平比较的基准,包括单变量时间序列预测和多变量时间序列预测。TFB在8,068个单变量时间序列上测评了超过20种UTSF方法以及在25个多变量数据集上对14种MTSF方法进行了测评。

TFB确定、收集和处理先前提出的时间序列数据集,以确定涵盖不同领域和特征的全面的数据集,并以标准化格式组织它们。然后,设计实验来研究不同方法在不同特征数据集上的表现。

TFB提供了一个自动化的端到端流程,用于评估预测方法,简化和标准化加载时间序列数据集、配置实验和评估方法的步骤。这简化了研究人员的评估过程。此外,所有数据集和代码都可在https://github.com/decisionintelligence/TFB上获得。

TFB评估、比较了一系列方法,涵盖了统计学习、机器学习和深度学习方法以及丰富多样的评估任务和策略。并将评估结果总结为一些关键发现。 

本文转载自​ 圆圆的算法笔记​,作者: Fareise


收藏
回复
举报
回复
相关推荐