机器算法验证 - 使用时间序列交叉验证计算预测误差 - 吾爱随笔录

我有一个时间序列的预测模型，我想计算它的样本外预测误差。目前我正在遵循的策略是在Rob Hyndman 的博客（靠近页面底部）上建议的策略，如下所示（假设时间序列的训练集） $y_1,\dots,y_n$ $k$

将模型拟合到数据并让成为下一次观察的预测。 $y_t,\dots,y_{t+k-1}$ $\hat{y}_{t+k}$
将预测误差计算为。 $e_{t} = \hat{y}_{t+k} - y_{t+k}$
重复 $t=1,\dots,n-k$
计算均方误差为 $\textrm{MSE}=\frac{1}{n-k}\sum_{t=1}^{n-k} e_t^2$

我的问题是，由于我的训练集重叠，我有多少需要担心相关性。特别是，假设我不仅要预测下一个值，还要预测下一个值，这样我就有了预测和错误，我想构建一个预测错误的期限结构。 $m$ $\hat{y}_{t+k},\dots,\hat{y}_{t+k+m-1}$ $e_{t,1},\dots,e_{t,m}$

我仍然可以每次将训练集的窗口向前滚动 1 ，还是应该向前滚动？如果我预测的系列中存在显着的自相关，这些问题的答案将如何变化（可以想象这是一个长记忆过程，即自相关函数以幂律而不是指数方式衰减。） $m$

我会很感激这里的解释，或者链接到我可以找到关于 MSE 周围的置信区间（或其他错误度量）的理论结果的地方。