(熊猫)自相关图显示什么?

机器算法验证 Python 自相关 熊猫
2022-01-27 03:36:02

我是初学者,我试图了解自相关图显示的内容。

我已经阅读了来自不同来源的几种解释,例如页面或相关的 Wikipedia 页面以及其他我未在此处引用的内容。

我有这个非常简单的代码,其中我的索引中有一年的日期,并且每个索引的值只是从 0 增加到 365 .. ( 1984-01-01:0, 1984-01-02:1 ... 1984-12-31:365)

import numpy as np
import pandas as pd
from pandas.plotting import autocorrelation_plot
import matplotlib.pyplot as plt

dr = pd.date_range(start='1984-01-01', end='1984-12-31')

df = pd.DataFrame(np.arange(len(dr)), index=dr, columns=["Values"])
autocorrelation_plot(df)
plt.show()

打印的图表将在哪里

在此处输入图像描述

我可以理解并看到为什么图表从1.00以下开始:

滞后零的自相关始终等于 1,因为这表示每个项与其自身之间的自相关。值和滞后为零的值将始终相同。

这很好,但为什么这个滞后 50 的图表的值在 0.65 左右?为什么它会降至0以下?如果我没有显示我拥有的代码,是否可以推断出这个自相关图显示了一个递增值的时间序列?如果是这样,您可以尝试向初学者解释如何推断它吗?

1个回答

查看滞后处的自协方差函数的估计量可能很有用(请注意,自相关函数只是自协方差函数的缩小版本)。h

γ^(h)=1nt=1nh(xt+hx¯)(xtx¯)

这个想法是,对于每个滞后,我们遍历序列并检查数据点时间步距是正向还是负向协变(即,当高于序列的平均值时,是否也高于或低于?)。hhtt+h

你的系列是一个单调递增的系列,平均为让我们看看当时会发生什么。183h=130

首先,请注意,我们只能计算直到时间点 234 的自协方差函数,因为当时,t=234t+h=365

此外,请注意,从,我们有也低于平均值(因为 53 + 130 = 183 这是系列的平均值)。t=1t=53t+h

然后,从,估计的相关性将是负的,因为它们是负共变的。t=54t=182

最后,从,估计的相关性将再次为正,因为都将高于平均值。t=183t=234tt+h

您是否看到由于正协变点和负协变点对自协方差函数的贡献大致相等,这将如何导致相关平均化?

您可能会注意到,负协变的点比正协变的点要多。然而,直观地说,正协变点的幅度更大(因为它们离均值更远),而负协变点对自协方差函数的贡献较小,因为它们更接近均值。因此,这导致自协方差函数近似为零。