解释与相关测量相关的 p 值

机器算法验证 相关性 统计学意义 参考 数理统计
2022-04-21 08:39:21

Introductory Statistics with R ”一书包含一个处理相关性的部分(第二版中的第 6.4 节)。这本书展示了在thuesen数据集的blood.glucoseshort.velocity列上计算的 Pearson、Spearman 和 Kendall 相关系数。与这些系数相关的 p 值分别为 0.048、0.139 和 0.119。然后这本书说:

请注意,两个非参数相关在 5% 的水平上都不显着,而皮尔逊相关是显着的,尽管只是临界显着。

我对这一段有几个问题。

首先,我天真的猜测是,由于非参数系数并不意味着线性,它们往往比 Pearson 的 r 更频繁地“显着”。我对吗?

其次,更重要的是,在同一数据上应用不同测试的 p 值之间的这种比较是否合法?(我说的是现实生活中的比较,而不是教科书中的微不足道的例子)如果是这样,我们需要如何解释线性相关是“显着”的概念,而排名或一致性相关不是?

2个回答

一种解释是异常值,即使是轻微的异常值也会影响皮尔逊相关的结果。如果异常值是一个合法点(不是拼写错误或其他错误),那么它应该会增加相关性的重要性(如您所见),但不会在其他 2 中发生太大变化,因此皮尔逊相关性很容易成为更大更重要。在实际数据分析中,看到这将建议寻找影响结果的异常值(无论如何您都应该绘制数据)。接下来要做什么取决于您要问什么问题以及在科学的情况下哪些假设是合理的。

@Greg Snow 对你的第一个问题很感兴趣。

关于你的第二个,比较这两个测试是误导性的,因为两个假设是不同的,即使科学问题(表面上)是相同的。在这种情况下,明确说明您使用的假设检验非常重要。

明确地说,使用的测试正在测试 vs之类的东西。对于 Spearman 的 rho,您正在测试使用假定线性关系,而使用假定更一般的单调关系,因为它基于观察到的等级(这也是它获得稳健性的地方)。这两个假设实际上是完全不同的。rH0:r=0H1:r0H0:ρ=0H1:ρ0rρ