如果我使用较少的历史数据,为什么我使用 ARIMA 的预测会更好?

数据挖掘 Python 预言 有马
2022-02-26 17:13:20

我有一个数据集,其中包含从 1.01.19 到 9 月的每小时电价。由于这个过程被证明是(弱)平稳的,我在 Python 中应用了一个 ARIMA 模型来预测第二天的价格。

事实证明,最好的预测是使用过去两天作为历史数据做出的,而最差的是使用近 6000 个值的预测。

发生这种情况的可能解释是什么?

1个回答

电价与股票价格基本相同:最好通过随机游走建模,其中对明天的最佳预测是今天的价格。因此,对于使用更多历史数据得到更差的结果,我并不感到惊讶。某些版本的 ARIMA 还将包括正则化,这将惩罚您的模型包含越来越多的数据 - 必须通过降低残差来证明包含新数据的合理性,以使其“值得”包含。

其他型号往往更强大,使用除实际目标之外的功能,这里是价格。例如,尝试预测价格的波动性可能被证明更准确。为此,有 GARCH 模型(广义自回归条件异方差)。

您可能会考虑的另一件事是包括外部数据......例如,电力消耗受天气影响很大 - 如果外面很冷,很多人使用电加热器取暖,他们也会喝更多的热饮等。