选择回归变量以包含在带有 ARMA 错误的回归中

机器算法验证 回归 时间序列 特征选择 有马 模型选择
2022-03-20 23:58:43

我想基于具有多个外生变量的时间序列 ARIMA 模型进行预测。我的时间序列是几年中的月度失业数据(百分比),我的回归量是几篇维基百科文章的收视率维基百科流量数据的连续值。时间序列和回归量都具有相同的长度。

如何选择正确的回归器以包含在模型中?使用R 中“预测”包中的auto.arimaforecast函数,我的第一次尝试是在单独使用每个回归量时根据最佳结果 MAE 对回归量进行排序。所以,我首先只使用 1 个回归量(最好的 MAE),然后添加第二好的回归量,等等。不过,这篇文章建议根据重要性选择回归量,但Rob Hyndman 的这篇文章建议使用 AIC。

我应该如何进行?我如何接受/拒绝回归器?

1个回答

时间序列模型选择的黄金标准是使用保留样本。保留最近几个月的数据,将不同的模型(具有不同的回归量组合)拟合到之前的数据中,预测到您的保留样本并选择具有最低预测误差的模型 - MAE 或 MSE。

也就是说,我希望不同维基百科文章的读者数量是相关的,特别是如果用作“手头有很多时间”的代理。因此,您可能希望查看降维技术,例如主成分分析 (PCA) 或类似技术,以将回归量减少到仅前几个主成分。更少的正交回归量将产生更稳定的模型和可能更好的预测。(问题是可解释性受到影响。)