为什么独立性意味着零相关?

机器算法验证 相关性 数理统计 协方差 独立
2022-02-11 04:27:21

首先,我不是在问这个:

为什么零相关并不意味着独立?

这在这里得到了解决(相当好)https ://math.stackexchange.com/questions/444408/why-does-zero-correlation-not-imply-independence

我要问的是相反的……说两个变量完全相互独立。

难道他们不能偶然有一点点相关吗?

不应该是......独立意味着非常小的相关性吗?

4个回答

根据相关系数的定义,如果两个变量是独立的,则它们的相关性为零。所以,它不可能碰巧有任何相关性!

ρX,Y=E[XY]E[X]E[Y]E[X2][E[X]]2 E[Y2][E[Y]]2

如果XY是独立的,意味着E[XY]=E[X]E[Y]. 因此,分子ρX,Y在这种情况下为零。

所以,如果你不改变相关的含义,就像这里提到的那样,这是不可能的。除非,从相关性中阐明您的定义。

评论样本相关性在比较两个相同大小的独立小样本时,样本相关性通常与r=0.[这里没有与@OmG 关于人口相关性的回答 (+1) 相矛盾ρ.]

考虑一百万对大小的独立样本之间的相关性n=5从具有速率的指数分布1.

set.seed(616)
r = replicate( 10^6, cor(rexp(5), rexp(5))  )
mean(abs(r) > .5)
[1] 0.386212
mean(r)
[1] -0.0005904455

hist(r, prob=T, br=40, col="skyblue2")
  abline(v=c(-.5,.5), col="red", lwd=2)

在此处输入图像描述

例如,这是百万对大小样本中的第一个的散点图5,为此 r=0.5716.

在此处输入图像描述

在这方面,指数分布没有什么特别之处。将父分布更改为标准统一给出了以下结果。

set.seed(2019)
...
mean(abs(r) > .5)
[1] 0.391061
mean(r)
[1] 1.43269e-05

在此处输入图像描述

相比之下,这里是大小正常样本对的相关直方图n=20.

在此处输入图像描述

注意:本网站的其他页面讨论的分布r更详细;其中之一就是这个问答

简单的答案:如果 2 个变量是独立的,则总体相关性为零,而样本相关性通常很小,但非零。

那是因为样本不是总体的完美代表。

样本越大,它就越能代表总体,因此相关性就越小。对于无限样本,相关性为零。

也许这对某些分享相同直观理解的人有所帮助。我们都见过这样的事情:

在此处输入图像描述

这些数据可能是独立的,但明显表现出相关性(r=0.66)。“我认为独立意味着零相关!” 学生说。

正如其他人已经指出的那样,样本值是相关的,但这并不意味着总体具有非零相关性。

当然,这两个应该是独立的——鉴于尼古拉斯凯奇今年出现在创纪录的 10 部电影中,为了安全起见,我们不应该在夏天关闭当地游泳池。

但是当我们检查今年有多少人溺水时,今年有创纪录的 1000 人溺水的可能性很小。

获得这种相关性是不可能的。也许千分之一。但这是可能的,即使两者是独立的。但这只是一种情况。考虑到那里有数百万个可能的事件要测量,您可以看到某些两个事件发生高相关性的几率非常高(因此存在上述图表)。

另一种看待它的方式是,保证两个独立事件总是给出不相关的值本身就是限制性的。给定两个独立的骰子,以及第一个骰子的结果,第二个骰子有一定的(相当大的)结果集,这将给出一些非零相关性。限制第二个骰子的结果与第一个骰子的相关性为零显然违反了独立性,因为第一个骰子的掷骰现在影响了结果的分布。