机器算法验证 - 皮尔逊相关系数的基础 - 吾爱随笔录

皮尔逊相关系数的基础

机器算法验证相关性皮尔逊-r

2022-03-30 11:15:35

皮尔逊相关系数使用公式计算。这个公式如何包含两个变量和相关或不相关的信息？或者，我们如何得到相关系数的这个公式？ $r = \frac{cov(X,Y)}{\sqrt{var(X)} \sqrt{var(Y)}}$ $X$ $Y$

3个回答

重要的是。分母用于摆脱测量单位（如果说以米为单位，以千克为单位，那么以米-千克为单位，这很难理解）和标准化（介于 -1 和 1 之间，无论您拥有什么变量值）。 $cov(X,Y)$ $\sqrt{var(X)var(Y)}$ $X$ $Y$ $cov(X,Y)$ $cor(X,Y)$

现在回到。这显示了变量的均值如何变化，因此是协方差。让我们举个例子。 $cov(X,Y)$ 在此处输入图像描述

和处绘制线条。右上角的点是和均高于平均值的位置，因此和都是正数。左下角的点低于它们的平均值。在这两种情况下，产品都是正数。相反，左上和右下是该产品为负的区域。 $\bar X$ $\bar Y$ $X_i$ $Y_i$ $(X_i-\bar X)$ $(Y_i-\bar Y)$ $(X_i-\bar X)(Y_i-\bar Y)$

现在，在这个例子中计算协方差时给出正积占主导地位，产生正协方差。当点更接近穿过点的可想象线对齐时，此协方差更大。 $cov(X,Y)=\frac1{n-1}\sum_{i=1}^n(X_i-\bar X)(Y_i-\bar Y)$ $(X_i-\bar X)(Y_i-\bar Y)$ $(\bar X,\bar Y)$

最后一点，协方差仅显示线性关系的强度。如果关系是非线性的，则协方差无法检测到它。

如果在您显示的公式中，您将所有三个项cov(X,Y)、var(X)和var(Y)的“除数”除以n-1 ，您将获得r的更基本公式：，其中SCP是“叉积和”，SS是“平方和”。通常，这是余弦的公式。但是由于X和Y是居中的（“偏差的叉积之和”和“偏差的平方和”），它变成了r的公式，- r 是居中变量之间的余弦。 $\frac{SCP(X,Y)}{\sqrt{SS(X)} \sqrt{SS(Y)}}$

现在，余弦是比例的度量；cos(X,Y)=1当且仅当Xi=kYi时，即当所有点 ( i ) 位于来自 X 与 Y 坐标系原点的直线上时。如果线不通过原点或点偏离直线，cos会变小。因为 Pearson r是云的cos，它以X轴和Y轴为中心，所以这条线不可避免地通过原点；因此，只有点偏离直线才能减小r：r是线性度。

如果r = 1，则存在完美的线性相关，如果r = -1，则存在完美的负线性相关，如果r = 0，则不存在线性相关。我们除以 X 和 Y 的标准差的原因是为了获得一个不依赖于尺度的度量。

有关更详细的答案，请参阅此线程。

其它你可能感兴趣的问题

上一篇非常小的样本量的降维技术下一篇如何评估多变量和特定方法结果的可重复性？