为什么皮尔逊的相关系数是这样定义的?

机器算法验证 自习 数理统计 方差 协方差 皮尔逊-r
2022-03-30 11:54:17

r=Cov(X,Y)σXσY
我根本不明白这个等式。它从何而来?

根据我个人的理解Cov(X,Y)源于这样一个事实XY是因随机变量,即E[XY]不一样E[X]E[Y]. 这是否类似于说P(AB)=P(A)P(B|A)如果AB不独立?我只是对为什么我们想要这个比率感到困惑E[XY]E[X]E[Y]在标准差的乘积之上XY.

1个回答

除以标准差的乘积得到的一件好事是,它保证了相关系数将在 -1 和 +1 之间。

如果你想确定是否X有更强的线性关系Y或与 Z比较cov(X,Y)cov(X,Z)直接不是信息,因为每个协方差的规模取决于方差Y一个Z,这可能非常不同。

除以σXσY标准化协方差,因此您可以比较cor(X,Y)cor(X,Z)以有意义的方式。