在尝试了解 Spearman 和 Pearson 相关系数之间的差异时,我被指向这篇论文:
http://geoinfo.amu.edu.pl/qg/archives/2011/QG302_087-093.pdf
但是论文结论部分的最后一句话说:
确保不要将 Spearman 等级相关系数过度解释为衡量两个变量之间关联强度的重要指标。
我对此感到困惑,因为我认为这就是重点?
任何澄清都会很棒。
在尝试了解 Spearman 和 Pearson 相关系数之间的差异时,我被指向这篇论文:
http://geoinfo.amu.edu.pl/qg/archives/2011/QG302_087-093.pdf
但是论文结论部分的最后一句话说:
确保不要将 Spearman 等级相关系数过度解释为衡量两个变量之间关联强度的重要指标。
我对此感到困惑,因为我认为这就是重点?
任何澄清都会很棒。
每个测量什么?
皮尔逊相关系数是 x 和 y 之间线性关系强度的度量。它受到异常值的影响,就像平均值和标准差一样。
Spearman相关系数是 x 和 y 之间单调关系强度的量度。这包括但比线性关系更普遍,包括所有一对多关系,但不包括多对一或多对多关系。它对异常值很稳健,就像中位数和四分位数范围一样。
互信息是对所有这些类型关系强度的一般度量,并且往往在噪声较小的数据中效果最佳。
豪克等。人。
在您提到的论文的情况下,在他们的 X12(出生率)与 X7(工作年龄人口)的图表中,一些异常值阻止了 Pearson 的相关性与 Spearman 的相关性与相同数据的相关性一致。这是因为作为等级度量的 Spearman 相关系数对少数异常值具有稳健性,就像中位数对异常值具有稳健性一样。关于他们的数据,我不确定他们为了获得 -6000 的出生率而进行了哪些奇怪的标准化!
在 X4(人口密度)与 X5(耕地)的情况下,我们有一个非线性、非单调的关系。高人口密度(在城市中)有四个数据点,对于这些数据点,大致而言,密度越高,农场的空间越小,因此我们有负相关。低人口密度地区的大部分数据,在不太好客的地区(山区、沙漠等),人口和农场更少,而在更茂盛的地区,人口和农场更多,所以我们有一个正相关。

所以我会用
始终绘制数据
了解数字的实际含义
了解每个相关性度量可以告诉您有关您的数据的哪些信息(如上)