皮尔逊相关系数的基础

机器算法验证 相关性 皮尔逊-r
2022-03-30 11:15:35

皮尔逊相关系数使用公式计算。这个公式如何包含两个变量相关或不相关的信息?或者,我们如何得到相关系数的这个公式?r=cov(X,Y)var(X)var(Y)XY

3个回答

重要的是分母用于摆脱测量单位(如果说以米为单位,以千克为单位,那么以米-千克为单位,这很难理解)和标准化(介于 -1 和 1 之间,无论您拥有什么变量值)。cov(X,Y)var(X)var(Y)XYcov(X,Y)cor(X,Y)

现在回到这显示了变量的均值如何变化,因此是方差让我们举个例子。cov(X,Y)在此处输入图像描述

处绘制线条右上角的点是均高于平均值的位置,因此都是正数。左下角的点低于它们的平均值。在这两种情况下,产品都是正数。相反,左上和右下是该产品为负的区域。X¯Y¯XiYi(XiX¯)(YiY¯)(XiX¯)(YiY¯)

现在,在这个例子中计算协方差时给出正积占主导地位,产生正协方差。当点更接近穿过点的可想象线对齐时,此协方差更大。cov(X,Y)=1n1i=1n(XiX¯)(YiY¯)(XiX¯)(YiY¯)(X¯,Y¯)

最后一点,协方差仅显示线性关系的强度。如果关系是非线性的,则协方差无法检测到它。

如果在您显示的公式中,您将所有三个项cov(X,Y)var(X)var(Y)的“除数”除以n-1 ,您将获得r的更基本公式,其中SCP是“叉积和”,SS是“平方和”。通常,这是余弦的公式。但是由于XY是居中的(“偏差的叉积之和”和“偏差的平方和”),它变成了r的公式,- r 是居中变量之间的余弦。SCP(X,Y)SS(X)SS(Y)

现在,余弦是比例的度量;cos(X,Y)=1当且仅当Xi=kYi时,即当所有点 ( i ) 位于来自 X 与 Y 坐标系原点的直线上时。如果线不通过原点或点偏离直线,cos会变小。因为 Pearson r是云的cos,它以X轴和Y轴为中心,所以这条线不可避免地通过原点;因此,只有点偏离直线才能减小rr线性度

如果r = 1,则存在完美的线性相关,如果r = -1,则存在完美的负线性相关,如果r = 0,则不存在线性相关。我们除以 X 和 Y 的标准差的原因是为了获得一个不依赖于尺度的度量。

有关更详细的答案,请参阅此线程