机器算法验证 - Spearman 等级相关系数 - 吾爱随笔录

Spearman 等级相关系数

机器算法验证斯皮尔曼罗

2022-03-30 01:32:33

在尝试了解 Spearman 和 Pearson 相关系数之间的差异时，我被指向这篇论文：

http://geoinfo.amu.edu.pl/qg/archives/2011/QG302_087-093.pdf

但是论文结论部分的最后一句话说：

确保不要将 Spearman 等级相关系数过度解释为衡量两个变量之间关联强度的重要指标。

我对此感到困惑，因为我认为这就是重点？

任何澄清都会很棒。

1个回答

每个测量什么？

皮尔逊相关系数是 x 和 y 之间线性关系强度的度量。它受到异常值的影响，就像平均值和标准差一样。

Spearman相关系数是 x 和 y 之间单调关系强度的量度。这包括但比线性关系更普遍，包括所有一对多关系，但不包括多对一或多对多关系。它对异常值很稳健，就像中位数和四分位数范围一样。

互信息是对所有这些类型关系强度的一般度量，并且往往在噪声较小的数据中效果最佳。

豪克等。人。

在您提到的论文的情况下，在他们的 X12（出生率）与 X7（工作年龄人口）的图表中，一些异常值阻止了 Pearson 的相关性与 Spearman 的相关性与相同数据的相关性一致。这是因为作为等级度量的 Spearman 相关系数对少数异常值具有稳健性，就像中位数对异常值具有稳健性一样。关于他们的数据，我不确定他们为了获得 -6000 的出生率而进行了哪些奇怪的标准化！

在 X4（人口密度）与 X5（耕地）的情况下，我们有一个非线性、非单调的关系。高人口密度（在城市中）有四个数据点，对于这些数据点，大致而言，密度越高，农场的空间越小，因此我们有负相关。低人口密度地区的大部分数据，在不太好客的地区（山区、沙漠等），人口和农场更少，而在更茂盛的地区，人口和农场更多，所以我们有一个正相关。

所以我会用

始终绘制数据
了解数字的实际含义
了解每个相关性度量可以告诉您有关您的数据的哪些信息（如上）

其它你可能感兴趣的问题

上一篇相关方向下一篇最大似然和 Gumbel 分布。可能性是否有全局最大值？