自相关是怎么回事?

机器算法验证 时间序列 自相关
2022-02-11 23:17:21

首先,我有相当深厚的数学背景,但我从未真正处理过时间序列或统计建模。所以你不必对我很温柔:)

我正在阅读这篇关于商业建筑能源使用建模的论文,作者提出以下主张:

[自相关的出现]是因为模型是从能源使用的时间序列数据发展而来的,这本质上是自相关的。时间序列数据的任何纯确定性模型都将具有自相关性。如果模型中包含[更多傅立叶系数],则发现自相关会降低。然而,在大多数情况下,傅立叶模型的 CV 较低。因此,对于不要求高精度的实际目的,该模型可能是可以接受的。

0.)“时间序列数据的任何纯确定性模型都将具有自相关”是什么意思?我可以模糊地理解这意味着什么——例如,如果你的自相关为 0,你会如何预测时间序列中的下一个点?可以肯定,这不是一个数学论证,这就是为什么这是 0 :)

1.)我的印象是自相关基本上杀死了你的模型,但仔细想想,我不明白为什么会这样。那么为什么自相关是一件坏事(或好事)?

2.)我听说过处理自相关的解决方案是区分时间序列。如果不尝试阅读作者的想法,如果存在不可忽略的自相关,为什么不做差异呢?

3.) 不可忽略的自相关对模型有什么限制?这是某个地方的假设(即,使用简单线性回归建模时的正态分布残差)?

无论如何,对不起,如果这些是基本问题,并提前感谢您的帮助。

2个回答
  1. 我认为作者可能在谈论模型的残差我之所以这么说,是因为他关于添加更多傅立叶系数的声明;如果我相信他正在拟合傅立叶模型,那么添加更多系数将降低残差的自相关性,但会以更高的 CV 为代价。

    如果您无法将其可视化,请考虑以下示例:假设您有以下 100 点数据集,该数据集来自添加了高斯白噪声的二系数傅立叶模型:

    数据点

    下图显示了两种拟合:一种使用 2 个傅立叶系数,另一种使用 200 个傅立叶系数:

    适合

    如您所见,200 个傅立叶系数更适合 DATAPOINTS,而 2 系数拟合(“真实”模型)更适合 MODEL。这意味着具有 200 个系数的模型残差的自相关几乎肯定会比 2 个系数模型的残差在所有滞后都更接近于零,因为具有 200 个系数的模型几乎完全适合所有数据点(即残差将几乎全为零)。但是,如果您从样本中留下 10 个数据点并拟合相同的模型,您认为会发生什么?2 系数模型将更好地预测您从样本中遗漏的数据点!因此,与 200 系数模型相比,它将产生较低的 CV 误差;这称为过拟合. 这种“魔术”背后的原因是因为 CV 实际上试图测量的是预测误差,即您的模型预测数据集中不在数据集中的数据点的程度。

  2. 在这种情况下,残差的自相关是“不好的”,因为这意味着您没有对数据点之间的相关性进行足够好的建模。人们不区分系列的主要原因是因为他们实际上想按原样对底层过程进行建模。一个差异时间序列通常是为了摆脱周期性或趋势,但如果该周期性或趋势实际上是您想要建模的,那么区分它们可能看起来像是最后的选择(或一个选项,以便对残差进行建模)一个更复杂的随机过程)。
  3. 这实际上取决于您正在从事的领域。这也可能是确定性模型的问题。但是,根据自相关的形式,当自相关由于闪烁噪声、类似 ARMA 的噪声或者它是残余的潜在周期性源(在这种情况下您可能想要增加傅立叶系数的数量)。

当我试图弄清楚为什么需要消除趋势时,我发现这篇论文“计量经济学中的虚假回归”很有帮助。本质上,如果两个变量有趋势,那么它们会共同变化,这会带来麻烦。