多个 ARIMA 模型很好地拟合数据。如何确定顺序?正确的做法?

机器算法验证 r 时间序列 造型 有马 自相关
2022-03-27 02:38:39

我有两个时间序列(男性和女性模型的参数),旨在确定合适的 ARIMA 模型以进行预测。我的时间序列看起来像:

在此处输入图像描述

绘图和 ACF 显示非平稳(ACF 的尖峰切断非常缓慢)。因此,我使用差分并获得:

在此处输入图像描述

该图表明该序列现在可能是平稳的,并且 kpss 检验和 adf 检验的应用支持该假设。

从男性系列开始,我们进行以下观察:

  • 滞后 1、4、5、26 和 27 处的经验自相关与零显着不同。
  • ACF 切断(?),但我担心滞后 26 和 27 处相对较大的峰值。
  • 只有滞后 1 和 2 的经验偏自相关与零有显着差异。

仅基于这些观察结果,如果我必须为差分时间序列选择纯 AR 或 MA 模型,我倾向于选择 AR(2) 模型,理由是:

  • 对于大于 2 的滞后,我们没有显着的偏自相关
  • 除了滞后 27 附近的区域外,ACF 截止。(仅这几个异常值是否是一个指标,表明混合 ARMA 模型是否合适?)

或 MA(1) 模型,认为:

  • PACF明确切断
  • 对于大于 1 的滞后,我们只有 4 个峰值超过临界值。这“仅”比允许位于虚线区域之外的 3 个尖峰(60 个中的 95%)多一个。

没有 ARIMA(1,1,1) 模型的特征,并且在 p+q > 2 时基于 ACF 和 PACF 选择 ARIMA 模型的 p 和 q 阶变得困难。

将 auto.arima() 与 AIC 标准一起使用(我应该使用 AIC 还是 AICC?)给出:

  1. 带有漂移的 ARIMA(2,1,1);AIC=280.2783
  2. 带漂移的 ARIMA(0,1,1);AIC=280.2784
  3. 带有漂移的 ARIMA(2,1,0);AIC=281.437

所有三个考虑的模型都显示白噪声残差:

在此处输入图像描述

我总结的问题是:

  1. 尽管在滞后 26 附近出现峰值,您仍然可以将时间序列的 ACF 描述为削减吗?
  2. 这些异常值是否表明混合 ARMA 模型可能更合适?
  3. 我应该选择哪个信息标准?人工智能?国际商会?
  4. 具有最高 AIC 的三个模型的残差确实都表现出白噪声行为,但 AIC 的差异非常小。我应该使用参数最少的那个,即 ARIMA(0,1,1) 吗?
  5. 我的论点总体上合理吗?
  6. 他们是否有进一步的可能性来确定哪个模型可能更好,或者我应该例如,具有最高 AIC 的两个模型并执行回测以测试预测的合理性?

编辑:这是我的数据:

-5.9112948202 -5.3429985122 -4.7382340534 -3.1129015623 -3.0350910288 -2.3218904871 -1.7926701792 -1.1417358384 -0.6665592055 -0.2907748318 0.2899480865 0.4637205370  0.5826312749  0.3869227286  0.6268379174  0.7439125292 0.7641139207  0.7613140511  3.0143912244 -0.7339255839  2.0109976796 0.8282394650 -2.5668367983  5.9826406394  1.9569198553  2.3860893476 2.0883339390  1.9761894580  2.2601997245  2.2464027995  2.5131158613 3.4564765529  4.2307335557  4.0298688374  3.7626317439  3.1026407174 2.1690168737  1.5617407254  2.6790460788  0.4652054768 -0.0501046517 -1.0157683791 -0.5113698054 -0.0180401353 -1.9471272198 -0.2550365250 -1.1269988523  0.5152074134  0.2362626753 -2.9978337017  1.4924705528 -1.4907767844 -0.5492041416 -0.7313021018 -0.6531515868 -0.4094159299 -0.5525401626 -0.0611454515 -0.5256272882 -1.1235247363 -1.7299848758 -1.3807763611 -1.6999054476 -4.3155973110 -4.7843298990
1个回答

1)尽管滞后 26 左右出现峰值,您仍然可以将时间序列的 ACF 描述为切割吗?

26 和 27 向我建议数据是每周某种年度周期 pf 顺序 26 或 52

这些异常值是否表明混合 ARMA 模型可能更合适?

如果观察到的序列中存在异常值,则 ARIMA 模型将成为具有虚拟输入的传递函数模型。

acf/pacf 中的异常值通常是不可解释的。而是使用主导 acf/pacf abd 建议的暂定模型的 acf/paf,然后迭代到更复杂的模型。

我应该选择哪个信息标准?人工智能?国际商会?具有最高 AIC 的三个模型的残差确实都表现出白噪声行为,但 AIC 的差异非常小。我应该使用参数最少的那个,即 ARIMA(0,1,1) 吗?

无,因为它是基于一组假设模型的试验。

我的论点总体上合理吗?含糊的问题……甚至含糊的回答。

他们是否有进一步的可能性来确定哪个模型可能更好,或者我应该例如,具有最高 AIC 的两个模型并执行回测以测试预测的合理性?

简单地迭代(慢慢地!)到更多/更少复杂的模型,同时包含自回归结构和确定性结构。有关逻辑流程图,请参见http://www.autobox.com/cms/index.php/blog/entry/build-or-make-your-own-arima-forecasting-mode

收到数据后编辑:

我被您的评论误导了,您使用了 26 的滞后一词,我错误地理解您在谈论 acf 但您在谈论时间点 26。数据集在许多方面可能是非平稳的。如果均值发生变化,则对这种非平稳性的补救措施就是去意义。在您的情况下,非平稳性是由两个独立且不同的趋势和误差方差的一个显着增加引起的。这两个发现都很容易得到眼睛的支持。在此处输入图像描述

您的数据具有非平稳性,但通过干预检测发现了两个趋势(1-29 和 30-65),因此对平均值非平稳性的补救措施不是差异化而是去趋势化。此外,通过 Tsay 的非恒定误差方差检验发现,您的误差方差在第 28 期显着增加,请参阅这两个程序的参考http://www.unc.edu/~jbhill/tsay.pdf在调整了两个趋势和误差方差变化以及几个脉冲之后,发现一个简单的 AR(1) 模型就足够了。这是 Actual/Fit/Forecast 的图。方程在此处输入图像描述在这里,估计结果在这里 在此处输入图像描述方差变化测试在这里在此处输入图像描述,模型残差图在这里在此处输入图像描述. 我使用 AUTOBOX 一个我帮助开发的软件来自动分离信号和噪声。您的数据集是为什么简单的 ARIMA 建模没有被广泛使用的“海报男孩”,因为简单的方法不适用于复杂的问题。请注意,误差方差的变化与观察序列的水平无关,因此即使已发表的论文展示了使用该结构的模型,对数等功率变换也不相关。有关何时进行幂变换的讨论,请参阅ARIMA 的对数或平方根变换。

在此处输入图像描述