谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024

duhorse

发布于 2024-6-11 12:48

浏览

0收藏

今年2月，Google Research的研究人员提出了一个时序预测基础模型TimesFM，在1000亿个「真实世界时间点」上进行预训练，仅仅用200M的参数规模就展现出了超强的零样本学习能力。

谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024-AI.x社区

论文链接：https://arxiv.org/pdf/2310.10688.pdf

当时权重还没有发布，就已经有人在Reddit社区中表达了难以克制的兴奋。

谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024-AI.x社区

5月8日，这篇研究又掀起了一阵波澜。

官方博客宣布这篇文章被ICML 2024接收，而且在GitHub和HuggingFace上公开了源代码和模型权重。

谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024-AI.x社区

开源后的短短几天内，GitHub上项目标星数已经达到了1.5k。

DeepMind首席科学家Jeff Dean转发了官方推特，为TimesFM的研究成果背书。

谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024-AI.x社区

在官宣的消息下面，网友们纷纷为谷歌这波公开模型的操作点赞：

「非常酷，希望大多数公司经常做这样的事。」

谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024-AI.x社区

「非常高兴看到谷歌拥抱开源模型和HuggingFace社区。」

谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024-AI.x社区

也有网友称赞TimesFM的零样本表现。

谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024-AI.x社区

让时序模型实现「零样本」预测

时间序列预测在零售、金融、制造业、医疗保健和自然科学等各个领域无处不在，比如预测股市、降雨量、流感病例、GDP等各种各样的指标，是一种「基于过去预测未来」的科学。

然而，时序预测并不是一件容易的事，模型需要处理各种复杂且动态的模式，比如循环周期、季节性、频率、趋势、异常值、噪音等等。

传统的深度学习方法需要大量数据和领域知识，却只能针对特定的任务和数据集对模型进行训练和微调。

与此同时，如ChatGPT等模型的问世让我们看到了LLM超强的零样本学习能力，只需要给出提示，不需要进一步训练或微调即可让模型完成各种类型的语言任务。

这就引出了一个问题：时间序列的基础模型能否像自然语言一样存在？在大量时间序列数据上进行预训练的大模型，能否像在大量语料上训练过的GPT一样，对未见数据进行准确预测？

这就是谷歌研究人员声称要让TimesFM实现的目标。

「类GPT」架构

相比非常容易大量爬取的文本数据，时间序列方面的公共数据集非常稀缺。而且为了训练通用的时序模型，数据集中应该包含大量的（百万级别）来自各种领域的多样化数据，且有不同的时间粒度，比如每小时、每日、每周等。

TimesFM的研究团队设法从三个特别渠道找到了这样的时序数据：

Google Trends中的随时间变化的搜索兴趣重新调整为时间序列
Wikipedia页面每小时浏览量随时间变化的数据
合成数据：使用传统的ARMA流程创建数据集

通过大量的数据集创建和评估工作，他们得到了包含1000亿个数据点的数据集。

虽然和Llama含有1T token的语料库依旧存在一定差距，但在时序预测领域是前所未有的大规模数据集。

在模型架构方面，TimesFM的灵感来自于Vision Transformer（ViT）和GPT，采用了decoder-only架构，主要由三个部分组成：输入编码器、解码器和输出解码器。

谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024-AI.x社区

对于输入数据的表达，同时借鉴了计算机视觉中的patch以及自然语言中的token两个概念。

输入的时间序列数据会先被输入编码器表示为token，再被分割为许多相同长度的patch，再将每个patch映射为作为模型输入的token。

解码器是模型的核心组件，应用了自注意力和位置编码机制，让模型可以学习序列中不同token之间的依赖关系。最后，输出解码器将输出token映射为最终的预测。

而且，TimesFM的关键功能之一是，它可以生成可变长度的输出token，这意味着模型可以预测任意数量的未来时间点，而不需要任何重新训练或微调。这是通过在模型输入中加入预测长度（PL）token实现的。

预测结果媲美监督学习

研究人员使用Monash Forecasting Archive来评估TimesFM的「开箱即用」性能，该数据集包含来自各个领域的数万个时间序列，如交通、天气和需求预测，覆盖频率从几分钟到每年的数据。

可以看到，zero-shot（ZS）TimesFM比大多数监督方法都要好，包括最近的深度学习模型。论文还对比了TimesFM和GPT-3.5使用llmtime（ZS）提出的特定提示技术进行预测，结果证明了TimesFM的性能优于llmtime（ZS）。

谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024-AI.x社区

在Monash数据集上，TimesFM（ZS）与其他有监督和零样本方法的比例MAE（越低越好）

大多数Monash数据集都是短期或中期的，也就是说预测长度不会太长；研究人员还测试了TimesFM对常用基准长期预测对最先进的基线PatchTST（和其他长期预测基线）。

研究人员绘制了ETT数据集上的MAE，用于预测未来96和192个时间点的任务，在每个数据集的最后一个测试窗口上计算指标。

谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024-AI.x社区

TimesFM（ZS）的最后一个窗口MAE（越低越好）相对于llmtime（ZS）以及ETT数据集上的长期预测基线

可以看到，TimesFM不仅超过了llmtime（ZS）的性能，而且与在相应数据集上显式训练的有监督PatchTST模型的性能相匹配。

本文转自新智元，作者：新智元

原文链接:https://mp.weixin.qq.com/s/2YUwUfkRzNdreKo02gGgcg

标签

谷歌

开源

相关推荐

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

轻薄滴假象 • 1397浏览 • 0回复
2万亿训练数据，120亿参数！开源大模型Stable LM 2-12B

Aceryt • 2212浏览 • 0回复
字节发布视觉基础模型ViTamin，多项任务实现SOTA，入选CVPR2024

Crystalcxt • 1136浏览 • 0回复
TFB：2024最新时间序列预测Benchmark

海因斯DK • 4120浏览 • 0回复
70亿LLaMA媲美5400亿PaLM！MIT惊人研究用「博弈论」改进大模型｜ICLR 2024

duhorse • 1020浏览 • 0回复
ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

轻薄滴假象 • 1213浏览 • 0回复
ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

轻薄滴假象 • 2044浏览 • 0回复
ICML 2024：从视觉语言基础模型反馈中进行强化学习

AIGC最前线 • 2220浏览 • 0回复
时间序列预测近期核心研究点总结

海因斯DK • 2658浏览 • 0回复
ICML 2024 Oral｜外部引导的深度聚类新范式

轻薄滴假象 • 1474浏览 • 0回复
ETH北航字节推出LoRA新范式 | ICML 2024

Crystalcxt • 1119浏览 • 0回复
ICML 2024：AI对齐与可变和可影响奖励函数

AIGC最前线 • 1149浏览 • 0回复
ACL2024：一个开源的通用语言代理训练框架LUMOS

AIGC最前线 • 1309浏览 • 0回复
ICML 2024｜Transformer究竟如何推理？基于样例还是基于规则

轻薄滴假象 • 1286浏览 • 0回复
ICML 2024高分论文 | 零阶优化器微调大模型，大幅降低内存

轻薄滴假象 • 1176浏览 • 0回复
快手开源图生视频模型LivePortrait，等待生成时间仅需10秒，弃扩散改用隐式关键点框架技术，网友：强得可怕

51CTO技术栈 • 4012浏览 • 0回复
专用于法律的两个开源大模型，最高1410亿参数

Aceryt • 1327浏览 • 0回复
成本降低1000倍！微软将开源超强RAG— LazyGraphRAG

Aceryt • 709浏览 • 0回复
ChunkRAG：比CRAG提升10个点准确率

大语言模型论文跟踪 • 673浏览 • 0回复

duhorse

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

谷歌开源TimesFM：1000亿个时间点训练，入选ICML 2024

让时序模型实现「零样本」预测

「类GPT」架构

预测结果媲美监督学习

目录