皮尔逊相关系数使用公式计算。这个公式如何包含两个变量和相关或不相关的信息?或者,我们如何得到相关系数的这个公式?
皮尔逊相关系数的基础
机器算法验证
相关性
皮尔逊-r
2022-03-30 11:15:35
3个回答
重要的是。分母用于摆脱测量单位(如果说以米为单位,以千克为单位,那么以米-千克为单位,这很难理解)和标准化(介于 -1 和 1 之间,无论您拥有什么变量值)。
现在回到。这显示了变量的均值如何变化,因此是协方差。让我们举个例子。
和处绘制线条。右上角的点是和均高于平均值的位置,因此和都是正数。左下角的点低于它们的平均值。在这两种情况下,产品都是正数。相反,左上和右下是该产品为负的区域。
现在,在这个例子中计算协方差时给出正积占主导地位,产生正协方差。当点更接近穿过点的可想象线对齐时,此协方差更大。
最后一点,协方差仅显示线性关系的强度。如果关系是非线性的,则协方差无法检测到它。
如果在您显示的公式中,您将所有三个项cov(X,Y)、var(X)和var(Y)的“除数”除以n-1 ,您将获得r的更基本公式:,其中SCP是“叉积和”,SS是“平方和”。通常,这是余弦的公式。但是由于X和Y是居中的(“偏差的叉积之和”和“偏差的平方和”),它变成了r的公式,- r 是居中变量之间的余弦。
现在,余弦是比例的度量;cos(X,Y)=1当且仅当Xi=kYi时,即当所有点 ( i ) 位于来自 X 与 Y 坐标系原点的直线上时。如果线不通过原点或点偏离直线,cos会变小。因为 Pearson r是云的cos,它以X轴和Y轴为中心,所以这条线不可避免地通过原点;因此,只有点偏离直线才能减小r:r是线性度。
如果r = 1,则存在完美的线性相关,如果r = -1,则存在完美的负线性相关,如果r = 0,则不存在线性相关。我们除以 X 和 Y 的标准差的原因是为了获得一个不依赖于尺度的度量。
有关更详细的答案,请参阅此线程。
其它你可能感兴趣的问题