用于时间序列概率预测的分位数回归

人工智能
本文介绍了分位数回归预测区间的概念,以及如何利用 NeuralProphet 生成预测区间。我们还强调了预测区间和置信区间之间的差异,这在商业应用中经常引起混淆。

分位数回归满足这一需求,提供具有量化机会的预测区间。它是一种统计技术,用于模拟预测变量与响应变量之间的关系,特别是当响应变量的条件分布令人感兴趣时。与传统的回归方法不同,分位数回归侧重于估计响应变量的条件量值,而不是条件均值。

图(A): 分位数回归图(A): 分位数回归

分位数回归概念 

分位数回归是估计⼀组回归变量X与被解释变量Y的分位数之间线性关系的建模⽅法。

以往的回归模型实际上是研究被解释变量的条件期望。⽽⼈们也关⼼解释变量与被解释变量分布的 中位数,分位数呈何种关系。它最早由Koenker和Bassett(1978)提出。

OLS回归估计量的计算是基于最⼩化残差平⽅。分位数回归估计量的计算也是基于⼀种⾮对称形式 的绝对值残差最⼩化。其中,中位数回归运⽤的是最⼩绝对值离差估计(LAD,least absolute deviations estimator)。 

分位数回归的优点 

(1)能够更加全⾯的描述被解释变量条件分布的全貌,⽽不是仅仅分析被解释变量的条件期望(均 值),也可以分析解释变量如何影响被解释变量的中位数、分位数等。不同分位数下的回归系数估 计量常常不同,即解释变量对不同⽔平被解释变量的影响不同。  

(2)中位数回归的估计⽅法与最⼩⼆乘法相⽐,估计结果对离群值则表现的更加稳健,⽽且,分位 数回归对误差项并不要求很强的假设条件,因此对于⾮正态分布⽽⾔,分位数回归系数估计量则更 加稳健。

分位数回归相对于蒙特卡罗模拟具有哪些优势呢?首先,分位数回归直接估计给定预测因子的响应变量的条件量值。这意味着,它不像蒙特卡罗模拟那样产生大量可能的结果,而是提供了响应变量分布的特定量级的估计值。这对于了解不同层次的预测不确定性特别有用,例如二分位数、四分位数或极端量值。其次,分位数回归提供了一种基于模型的预测不确定性估算方法,利用观测数据来估计变量之间的关系,并根据这种关系进行预测。相比之下,蒙特卡罗模拟依赖于为输入变量指定概率分布,并根据随机抽样生成结果。

NeuralProphet提供两种统计技术:(1) 分位数回归和 (2)保形分位数回归。共形分位数预测技术增加了一个校准过程来做分位数回归。在本章中,我们将使用 Neural Prophet 的分位数回归模块。

环境要求

安装 NeuralProphet。

!pip install neuralprophet
!pip uninstall numpy
!pip install git+https://github.com/ourownstory/neural_prophet.git numpy==1.23.5

导入需要的库。

%matplotlib inline
from matplotlib import pyplot as plt
import pandas as pd
import numpy as np
import logging
import warnings
logging.getLogger('prophet').setLevel(logging.ERROR)
warnings.filterwarnings("ignore")

数据集

共享单车数据。该数据集是一个多变量数据集,包含每日租赁需求以及温度或风速等其他天气领域。

data = pd.read_csv('/bike_sharing_daily.csv')
data.tail()

图(B): 共享单车图(B): 共享单车

绘制共享单车的数量图。我们观察到,需求量在第二年有所增加,而且有季节性规律。

# convert string to datetime64
data["ds"] = pd.to_datetime(data["dteday"])

# create line plot of sales data
plt.plot(data['ds'], data["cnt"])
plt.xlabel("date")
plt.ylabel("Count")
plt.show()

图 (C):自行车租赁日需求量图 (C):自行车租赁日需求量

为建模做最基本的数据准备。NeuralProphet 要求列名为 ds 和 y,这与 Prophet 的要求相同。

df = data[['ds','cnt']]
df.columns = ['ds','y']

构建分位数回归模型

直接在 NeuralProphet 中构建分位数回归。假设我们需要第 5、10、50、90 和 95 个量级的值。我们指定 quantile_list = [0.05,0.1,0.5,0.9,0.95],并打开参数 quantiles = quantile_list。

from neuralprophet import NeuralProphet, set_log_level

quantile_list=[0.05,0.1,0.5,0.9,0.95 ]
# Model and prediction
m = NeuralProphet(
    quantiles=quantile_list,
    yearly_seasnotallow=True,
    weekly_seasnotallow=True,
    daily_seasnotallow=False
)
m = m.add_country_holidays("US")
m.set_plotting_backend("matplotlib")  # Use matplotlib

df_train, df_test = m.split_df(df, valid_p=0.2)
metrics = m.fit(df_train, validation_df=df_test, progress="bar")
metrics.tail()

分位数回归预测

我们将使用 .make_future_dataframe()为预测创建新数据帧,NeuralProphet 是基于 Prophet 的。参数 n_historic_predictions 为 100,只包含过去的 100 个数据点。如果设置为 True,则包括整个历史数据。我们设置 period=50 来预测未来 50 个数据点。

future = m.make_future_dataframe(df, periods=50, n_historic_predictinotallow=100) #, n_historic_predictinotallow=1)

# Perform prediction with the trained models
forecast = m.predict(df=future)
forecast.tail(60)

预测结果存储在数据框架 predict 中。

图 (D):预测图 (D):预测

上述数据框架包含了绘制地图所需的所有数据元素。

m.plot(
    forecast, 
    plotting_backend="plotly-static"
    #plotting_backend = "matplotlib"
)

预测区间是由分位数值提供的!

图 (E):分位数预测图 (E):分位数预测

预测区间和置信区间的区别

预测区间和置信区间在流行趋势中很有帮助,因为它们可以量化不确定性。它们的目标、计算方法和应用是不同的。下面我将用回归来解释两者的区别。在图(F)中,我在左边画出了线性回归,在右边画出了分位数回归。

图(F):置信区间与预测区间的区别图(F):置信区间与预测区间的区别

首先,它们的目标不同:

  • 线性回归的主要目标是找到一条线,使预测值尽可能接近给定自变量值时因变量的条件均值。
  • 分位数回归旨在提供未来观测值的范围,在一定的置信度下。它估计自变量与因变量条件分布的不同量化值之间的关系。

其次,它们的计算方法不同:

  • 在线性回归中,置信区间是对自变量系数的区间估计,通常使用普通最小二乘法 (OLS) 找出数据点到直线的最小总距离。系数的变化会影响预测的条件均值 Y。
  • 在分位数回归中,你可以选择依赖变量的不同量级来估计回归系数,通常是最小化绝对偏差的加权和,而不是使用OLS方法。

第三,它们的应用不同:

  • 在线性回归中,预测的条件均值有 95% 的置信区间。置信区间较窄,因为它是条件平均值,而不是整个范围。
  • 在分位数回归中,预测值有 95% 的概率落在预测区间的范围内。

写在最后

本文介绍了分位数回归预测区间的概念,以及如何利用 NeuralProphet 生成预测区间。我们还强调了预测区间和置信区间之间的差异,这在商业应用中经常引起混淆。后面将继续探讨另一项重要的技术,即复合分位数回归(CQR),用于预测不确定性。

责任编辑:武晓燕 来源: 数据STUDIO
相关推荐

2024-05-10 11:57:02

时间序列概率

2024-01-01 15:37:59

机器学习神经网络

2024-05-09 16:23:14

2022-11-24 17:00:01

模型ARDL开发

2023-10-13 15:34:55

时间序列TimesNet

2024-06-27 16:38:57

2022-08-16 09:00:00

机器学习人工智能数据库

2021-08-05 13:49:39

Python工具开发

2021-07-02 10:05:45

PythonHot-winters指数平滑

2024-07-18 13:13:58

2021-07-01 21:46:30

PythonHot-Winters数据

2021-04-07 10:02:00

XGBoostPython代码

2023-01-30 17:10:23

DeepTime元学习

2017-11-20 11:51:40

KerasLSTM深度学习

2023-03-16 18:09:00

机器学习数据集

2023-02-07 16:21:37

时间序列列数据集

2024-11-15 15:20:00

模型数据

2022-07-15 16:14:39

深度学习时间序列理论

2023-03-16 07:27:30

CnosDB数据库

2024-09-04 16:36:48

点赞
收藏

51CTO技术栈公众号