相关性 - Pearson 和 Spearman

机器算法验证 相关性 斯皮尔曼罗
2022-03-15 04:02:55

我知道 Pearson 相关性对异常值很敏感,这与 Spearman 相关性不同。我正在尝试生成将最大化这两种方法之间差异的数据(假设至少有 30 个点)。我试图在上升的线性方向上生成一些点,然后在相反方向上生成一个异常点。它确实显示出系数的很大差异,但没有我想要的那么多。有任何想法吗?

3个回答

皮尔逊相关取决于数据的值;Spearman 相关性仅取决于它们的(边际)等级。因此,前者对外围数据(远)更敏感。

什么样的外围数据?杠杆率高的人。 这些点位于图中其余点的左侧或右侧,如图中的左侧面板所示。 数字

那个孤立的点(20,20)将最小二乘线拉近它(否则平方惩罚会很大)。因此,Pearson 相关性(即这条线的标准化斜率)必须很大且为

但是,同一点在数据等级图中不再具有相同的杠杆作用:是的,它再次偏向左侧,但不能偏向左侧。它仅将最小二乘法拉到一点点。Spearman 相关性很大且为正,因为30点已经具有很高的 Spearman 正相关性,并且改变一个点的值并不能改变这些排名。

将这些图片上下颠倒,以获得从大的Pearson正相关转换为大的Spearman 相关的示例。

沿线段固定最右边的 30 个点(1,1)(1,1),我们可能会改变那个偏远点(a,a)并将相关性绘制为a.

数字

黑色曲线跟踪 Pearson 相关性。 什么时候a=0,重点(0,0)与其他完美契合30点和两个相关性是1. 但是对于极负值和正值a,这种杠杆现象发生并且两个相关系数分开。

红色虚线曲线跟踪 Spearman 相关性,无论数值如何,该相关性都保持高位a可能有。

在极限情况下,皮尔逊相关性可以接近1. Spearman 相关性达到一个仅取决于数据量的下限值:在图中,它大约是0.806. 对于足够大的数据集,Spearman 相关性将保持非常接近1. 例如,重复这个例子300+1点而不是30+1点,斯皮尔曼系数从不小于0.980.

灰色 (Pearson) 和蓝色虚线 (Spearman) 曲线显示了y否定的价值观。

因此,通过使n足够大并且仅从高度相关的数据集中拉出一个,您可以使两个相关系数尽可能接近±1如你所愿,但有相反的迹象。

我知道 Pearson 相关性对异常值很敏感,这与 Spearman 相关性不同。

两者之间有一个更显着的区别:Pearson 假设数据之间存在线性关系,而 Spearman 检查它是否只是单调的(见下图,取自Wikipedia)。因此,通过非线性过程生成数据是表明它们不等价的一种方式。

当被比较的两个变量单调相关时,Spearman 相关性为 1,即使它们的关系不是线性的。这意味着所有 x 值大于给定数据点的数据点也将具有更大的 y 值。相反,这并没有给出完美的 Pearson 相关性。 在此处输入图像描述

这是基本思想。在这个例子中,Spearman 的相关性显然是 1,而 Pearson 的相关性是 0.65。您可以生成看起来几乎是一条直线的“步进数据”,然后添加一个异常值。

人与斯皮尔曼