有人可以解释时间序列数据中的自相关函数吗?将 acf 应用于数据,应用程序是什么?
什么是自相关函数?
与常规采样数据不同,时间序列数据是有序的。因此,如果有有用的时间模式,您可以利用有关您的样本的额外信息。自相关函数是用于在数据中查找模式的工具之一。具体来说,自相关函数会告诉您由不同时间滞后分隔的点之间的相关性。例如,以下是具有离散时间段的序列的一些可能的 acf 函数值:
表示法是 ACF(n=点之间的时间段数)=由 n 个时间段分隔的点之间的相关性。我将举例说明 n 的前几个值。
ACF(0)=1(所有数据都与自身完全相关),ACF(1)=.9(一个点与下一个点的相关性为0.9),ACF(2)=.4(一个点之间的相关性)并且提前两个时间步长是0.4)......等等。
因此,ACF 会根据它们分开的时间步长告诉您点之间的相关程度。这是自相关的要点,它是过去数据点与未来数据点的相关性,对于不同的时间间隔值。通常,您会期望自相关函数随着点变得更加分离(即上述符号中的 n 变大)而趋向于 0,因为通常更难以从给定的数据集预测未来。这不是规则,而是典型的。
现在,到第二部分……我们为什么要关心?ACF 和它的姊妹函数,partial自相关函数(稍后会详细介绍)在 Box-Jenkins/ARIMA 建模方法中用于确定过去和未来数据点在时间序列中的相关性。偏自相关函数 (PACF) 可以被认为是相隔一定数量的周期 n 的两点之间的相关性,但是去除了中间相关性的影响。这很重要,因为可以说实际上,每个数据点仅与 NEXT 数据点直接相关,而没有其他数据点。然而,它看起来好像当前点与未来点相关,但这只是由于“连锁反应”类型的效应,即 T1 与 T2 直接相关,而 T2 与 T3 直接相关,所以它看起来像T1 与 T3 直接相关。PACF 将消除与 T2 的干扰相关性,因此您可以更好地辨别模式。一个很好的介绍是这里。
NIST 在线工程统计手册也有一章介绍了这一点,以及使用自相关和偏自相关进行时间序列分析的示例。我不会在这里重现它,但是通过它,您应该对自相关有更好的理解。
让我给你另一个视角。
用时间序列的当前值绘制时间序列的滞后值。
如果您看到的图表是线性的,则意味着时间序列的当前值与时间序列的滞后值之间存在线性相关性。
自相关值是衡量该依赖关系线性度的最明显方法。