Spearman 等级相关系数

机器算法验证 斯皮尔曼罗
2022-03-30 01:32:33

在尝试了解 Spearman 和 Pearson 相关系数之间的差异时,我被指向这篇论文:

http://geoinfo.amu.edu.pl/qg/archives/2011/QG302_087-093.pdf

但是论文结论部分的最后一句话说:

确保不要将 Spearman 等级相关系数过度解释为衡量两个变量之间关联强度的重要指标。

我对此感到困惑,因为我认为这就是重点?

任何澄清都会很棒。

1个回答

每个测量什么?

皮尔逊相关系数是 x 和 y 之间线性关系强度的度量。它受到异常值的影响,就像平均值和标准差一样。

Spearman相关系数是 x 和 y 之间单调关系强度的量度。这包括但比线性关系更普遍,包括所有一对多关系,但不包括多对一或多对多关系。它对异常值很稳健,就像中位数和四分位数范围一样。

互信息是对所有这些类型关系强度的一般度量,并且往往在噪声较小的数据中效果最佳。

豪克等。人。

在您提到的论文的情况下,在他们的 X12(出生率)与 X7(工作年龄人口)的图表中,一些异常值阻止了 Pearson 的相关性与 Spearman 的相关性与相同数据的相关性一致。这是因为作为等级度量的 Spearman 相关系数对少数异常值具有稳健性,就像中位数对异常值具有稳健性一样。关于他们的数据,我不确定他们为了获得 -6000 的出生率而进行了哪些奇怪的标准化!X12vsX7

在 X4(人口密度)与 X5(耕地)的情况下,我们有一个非线性、非单调的关系。高人口密度(在城市中)有四个数据点,对于这些数据点,大致而言,密度越高,农场的空间越小,因此我们有负相关。低人口密度地区的大部分数据,在不太好客的地区(山区、沙漠等),人口和农场更少,而在更茂盛的地区,人口和农场更多,所以我们有一个正相关。 X4vsX5

所以我会用

  1. 始终绘制数据

  2. 了解数字的实际含义

  3. 了解每个相关性度量可以告诉您有关您的数据的哪些信息(如上)