如何计算同一变量的两个观测值之间的协方差?

机器算法验证 协方差
2022-03-29 15:07:18

我对我读到的关于协方差的内容感到困惑。我知道如何计算两个不同变量之间的协方差,但不知道同一变量的两个观察值之间的协方差。有很多观察结果这是什么意思以及如何计算? X

Cov[xi,xj]

或者,对我来说,这似乎是同样的问题,在一个简单的线性回归中,当有人说

Cov[εi,εj]=0

对于你怎么计算这个? ij

2个回答

重写方差而不是与平均值的平方偏差的一种有用方法是根据与所有其他观察值的平方偏差(通过Wikipedia):

Var(X)=1n2i=1nj=1n12(xixj)2

你可以想象制作一个图形xi是行和xj是列(其中ij两者都以相同的顺序索引相同的观察值),并且矩阵填充有12(xixj)2. 在独立数据的情况下,您不应该打乱观察的顺序以提供此矩阵中的模式。

当我们对序列的自相关感兴趣时,我们需要定义成对的数据,以检查数据对内的方差是否对整体方差的贡献更大/更小。也就是说,该分组内的对比该分组外的对更相似(对于正自相关)。

这方面的一些例子是:

  • 分组数据的类内相关性(在简单情况下可从 ANOVA 表的输出中获得)。
  • 对于时间序列或空间数据,时间和/或空间附近点的自相关。

对于上面建议的矩阵,如果您对具有正自相关的数据进行分组并且按顺序放置组,则矩阵将显示为块状,块内的值较小,块之间的值较大。对于时间序列数据,如果您按时间对观察进行排序,则矩阵将显示为对角线,对角线上的值较小,对角线外的值较大,表示正自相关。

@AndyW 提供了一个很好的答案。让我抛出一个与您问题的“[w]这意味着什么”部分相关的额外一点。

两个单点之间可能存在协方差似乎是不可理解的。您需要记住的是,您拥有的两个点只是两个值处的两个误差分布的实现。的假设与数据生成过程的误差分布有关,实际上与实际数据无关。 XCov[εi,εj]=0

理论上,3 月份的误差分布可能与 2 月份的误差分布相关,但所有其他误差分布配对将完全不相关。2 月和 3 月各只有一个数据点,这是无法检查的(这也是一种非常奇怪的可能性)。相反,我们所做的实际上是在滞后时测试残差。也就是说,我们将检查,例如,每个数据点与它之前的点的协方差。现在您有两组数据,您可以检查协方差。