对协方差定义的直觉

机器算法验证 相关性 协方差
2022-03-25 06:02:53

我试图更好地理解两个随机变量的协方差,并理解第一个想到它的人是如何得出统计学中常用的定义的。我去维基百科更好地理解它。从文章来看,似乎很好的候选度量或数量Cov(X,Y)应具有以下属性:

  1. 当两个随机变量相似时,它应该有一个正号(即,当一个变量增加另一个变量时,当一个变量减小另一个变量时)。
  2. 当两个随机变量相反相似时,我们还希望它具有负号(即,当一个随机变量增加时,另一个随机变量趋于减少)
  3. 最后,当两个变量相互独立时(即它们彼此不共同变化),我们希望这个协方差量为零(或者可能非常小?)。

从上面的属性中,我们要定义Cov(X,Y). 我的第一个问题是,我并不完全清楚为什么Cov(X,Y)=E[(XE[X])(YE[Y])]满足这些性质。从我们拥有的属性来看,我本来希望更多类似“导数”的方程成为理想的候选者。例如,更像是“如果 X 的变化是正的,那么 Y 的变化也应该是正的”。另外,为什么从平均值中获取差异是“正确”的事情呢?

一个更切题但仍然有趣的问题是,是否有一个不同的定义可以满足这些属性并且仍然有意义和有用?我问这个是因为似乎没有人质疑我们为什么首先使用这个定义(感觉就像,它“总是这样”,在我看来,这是一个可怕的原因,它阻碍了科学和数学好奇心和思考)。公认的定义是我们可以拥有的“最佳”定义吗?


这些是我对为什么公认的定义有意义的想法(它只是一个直观的论点):

ΔX对于变量 X 有一些差异(即它在某个时间从某个值更改为某个其他值)。类似地定义ΔY.

例如,我们可以通过以下方式计算它们是否相关:

sign(ΔXΔY)

这有点好看!对于一个实例,它满足我们想要的属性。如果它们都一起增加,那么大多数时候,上述数量应该是正的(同样,当它们相反相似时,它会是负的,因为Delta的将有相反的符号)。

但这只能及时为我们提供一个实例所需的数量,并且由于它们是 rv,如果我们决定仅基于 1 个观察结果来建立两个变量的关系,我们可能会过度拟合。那么为什么不期待这个看到差异的“平均”产​​品。

sign(E[ΔXΔY])

这应该平均捕捉到上面定义的平均关系!但这个解释的唯一问题是,我们用什么来衡量这种差异?这似乎可以通过测量与平均值的差异来解决(出于某种原因,这是正确的做法)。

我想我对定义的主要问题是取平均值的差异我似乎还无法为自己证明这一点。


符号的解释可以留给不同的问题,因为它似乎是一个更复杂的话题。

4个回答

想象一下,我们从一堆空的数字开始。然后我们开始画对(X,Y)从他们的联合分布。可能发生以下四种情况之一:

  1. 如果 X 和 Y 都较大,则它们各自的平均值我们说这对相似,因此我们将一个正数放入堆栈。
  2. 如果 X 和 Y 都较小,则它们各自的平均值我们说这对相似,并将正数放入堆栈。
  3. 如果 X 大于它的平均值并且 Y 小于它的平均值,我们说这对是不同的,并将一个负数放入堆栈。
  4. 如果 X 小于它的平均值并且 Y 大于它的平均值,我们说这对是不同的,并将一个负数放入堆栈。

然后,为了获得 X 和 Y 的(不)相似性的总体度量,我们将堆栈中数字的所有值相加。正数表示变量同时朝同一方向移动。负数表明变量经常朝相反的方向移动。零和表明知道一个变量的方向并不能告诉你太多关于另一个变量的方向。

重要的是要考虑“大于平均”,而不仅仅是“大”(或“正”),因为任何两个非负变量都会被判断为相似(例如,M42 上的下一次车祸的大小和明天在帕丁顿火车站购买的车票数量)。

协方差公式是这个过程的形式化:

Cov(X,Y)=E[(XE[X])(YE[Y])]

使用概率分布而不是蒙特卡罗模拟,并指定我们放入堆栈的数字的大小。

这是我在没有任何方程式的情况下查看它的直观方式。

  1. 它是将方差推广到更高维度。动机可能来自试图描述数据的行为方式。首先,我们有它的位置——均值。对于二阶,我们有散点 - 协方差。

    我想我对定义的主要问题是取平均值的差异。我似乎还无法为自己证明这一点。

    相对于分布的中心评估散点。方差的最基本定义是“平均偏差”。因此,在协方差的情况下,您也必须减去均值。

  2. 想到的另一个主要动机是需要定义一种方法来测量随机变量之间的距离。Mahalanobis 距离和协方差齐头并进:给定一个高斯分布和其他两个与分布均值具有相等欧几里得距离的样本。如果我要问你哪个样本更有可能是不是从高斯分布中提取的异常值,欧几里得距离不会。马氏距离与欧几里得距离有一个显着的区别:它考虑了分布的散射(协方差)。这允许您将距离推广到随机变量。

  1. 最后,当两个变量相互独立时(即它们彼此不共同变化),我们希望这个协方差量为零(或者可能非常小?)。

好的,让我们考虑两个独立的伯努利(12) 随机变量XY. 如果您同意允许E[XY]来表示协方差但对均值的减法感到厌烦,那么我们可以很容易地计算出E[XY]=14这是很小的。但是独立随机变量呢?X^=1000XY^=1000Y为此E[X^Y^]=250,000? 因此,对于独立随机变量,协方差不为零(或者可能只是很小)。另一方面,标准定义cov(X,Y)=E[(XE[X])(YE[Y])]没有这样的缺陷,在上述简单情况下,协方差值为零。

  1. 当两个随机变量相反相似时,我们还希望它具有负号(即,当一个随机变量增加时,另一个随机变量趋于减少)

所以现在,考虑X和以前一样,但定义Y=1X. 很明显,随着一个变量的增加,另一个变量会减少。但,E[XY]=0标准定义cov(X,Y)=E[(XE[X])(YE[Y])]就像你想要的那样给出一个负值。

  1. 当两个随机变量相似时,它应该(原文如此)具有正号(即,当一个增加另一个时,另一个增加,当一个减少另一个时)。

再一次,让X和以前一样,但现在定义Y=X1. 很明显,随着一个变量的增加,另一个变量也会增加。但,E[XY] 是消极的,而不是你想要的积极的方式,而标准定义cov(X,Y)=E[(XE[X])(YE[Y])]就像你想要的那样给出一个正值。

最后,协方差的标准定义简化为方差的定义:X=Y.

我想知道同样的问题,猜想给出的直觉帮助了我。为了直观地显示直觉,我采用了两个随机法线向量 x 和 y,绘制了散点图,并通过它们与各自平均值的偏差乘积为每个点着色(蓝色表示正值,红色表示负值)。

从图中可以清楚地看出,乘积在右上和左下象限中最正,而在右下和左上象限中最负。对产品求和的效果将导致 0,因为蓝色点抵消了红色点。

但是你可以看到,如果我们去掉了红点,剩下的数据之间就呈现出正相关关系,这通过正乘积之和(即蓝点之和)来验证。

在此处输入图像描述