我知道 Pearson 相关性对异常值很敏感,这与 Spearman 相关性不同。我正在尝试生成将最大化这两种方法之间差异的数据(假设至少有 30 个点)。我试图在上升的线性方向上生成一些点,然后在相反方向上生成一个异常点。它确实显示出系数的很大差异,但没有我想要的那么多。有任何想法吗?
相关性 - Pearson 和 Spearman
皮尔逊相关取决于数据的值;Spearman 相关性仅取决于它们的(边际)等级。因此,前者对外围数据(远)更敏感。
什么样的外围数据?杠杆率高的人。 这些点位于图中其余点的左侧或右侧,如图中的左侧面板所示。
那个孤立的点将最小二乘线拉近它(否则平方惩罚会很大)。因此,Pearson 相关性(即这条线的标准化斜率)必须很大且为负。
但是,同一点在数据等级图中不再具有相同的杠杆作用:是的,它再次偏向左侧,但不能偏向左侧。它仅将最小二乘法拉到一点点。Spearman 相关性很大且为正,因为点已经具有很高的 Spearman 正相关性,并且改变一个点的值并不能改变这些排名。
将这些图片上下颠倒,以获得从大的Pearson正相关转换为大的负Spearman 相关的示例。
沿线段固定最右边的 30 个点至我们可能会改变那个偏远点并将相关性绘制为
黑色曲线跟踪 Pearson 相关性。 什么时候重点与其他完美契合点和两个相关性是 但是对于极负值和正值这种杠杆现象发生并且两个相关系数分开。
红色虚线曲线跟踪 Spearman 相关性,无论数值如何,该相关性都保持高位可能有。
在极限情况下,皮尔逊相关性可以接近 Spearman 相关性达到一个仅取决于数据量的下限值:在图中,它大约是 对于足够大的数据集,Spearman 相关性将保持非常接近 例如,重复这个例子点而不是点,斯皮尔曼系数从不小于
灰色 (Pearson) 和蓝色虚线 (Spearman) 曲线显示了否定的价值观。
因此,通过使足够大并且仅从高度相关的数据集中拉出一个点,您可以使两个相关系数尽可能接近如你所愿,但有相反的迹象。
我知道 Pearson 相关性对异常值很敏感,这与 Spearman 相关性不同。
两者之间有一个更显着的区别:Pearson 假设数据之间存在线性关系,而 Spearman 检查它是否只是单调的(见下图,取自Wikipedia)。因此,通过非线性过程生成数据是表明它们不等价的一种方式。
当被比较的两个变量单调相关时,Spearman 相关性为 1,即使它们的关系不是线性的。这意味着所有 x 值大于给定数据点的数据点也将具有更大的 y 值。相反,这并没有给出完美的 Pearson 相关性。