我有一堆相关的数据集。它们之间的 pearson 相关性通常肯定大于 spearman 相关性。这表明任何相关性都是线性的,但即使 pearson 和 spearman 相同,人们也可能会期望这一点。当 pearson 和 spearman 相关之间存在一定的差距并且 pearson 更大时,这意味着什么?这似乎是我的数据集的一致特征。
当 Spearman 相关性小于 Pearson 一定数量时,它表明什么?
机器算法验证
相关性
斯皮尔曼罗
皮尔逊-r
2022-01-31 12:46:19
2个回答
Spearman 相关性只是使用排名(顺序统计)而不是实际数值的 Pearson 相关性。你的问题的答案是他们测量的不是同一个东西。Pearson:线性趋势,Spearman:单调趋势。皮尔逊相关性较高仅意味着线性相关性大于等级相关性。这可能是由于分布尾部的有影响的观察值相对于它们的排名值有很大的影响。当数据中保持线性时,使用 Pearson 相关性的关联检验具有更高的功效。
Pearson 相关假设几个假设是准确的: 1) 每个变量是正态分布的;2)同方差性,每个变量的方差保持不变;3) 线性,表示描述关系的散点图显示数据点围绕回归线对称聚集。
Spearman 相关性是基于观察等级的 Pearson 相关性的非参数替代方法。Spearman 相关性允许您放宽关于数据集的所有三个假设,并得出仍然相当准确的相关性。
您的数据暗示的是,它可能在实质上打破了上述一个或多个假设,因此这两种相关性存在显着差异。
鉴于您在两个相关性之间存在很大差距,您应该调查数据集的变量在散点图中是否呈正态分布、同方差和线性。
上述调查将有助于您决定 Spearman 或 Pearson 相关系数是否更具代表性。