我在统计咨询工作中经常遇到这个问题,我想我会把它贴在这里。我有一个答案,发布在下面,但我很想听听其他人要说什么。
问题:如果您有两个非正态分布的变量,您是否应该使用 Spearman 的 rho 进行相关性?
我在统计咨询工作中经常遇到这个问题,我想我会把它贴在这里。我有一个答案,发布在下面,但我很想听听其他人要说什么。
问题:如果您有两个非正态分布的变量,您是否应该使用 Spearman 的 rho 进行相关性?
皮尔逊相关性是衡量两个连续随机变量之间的线性关系。尽管它确实假设有限方差和有限协方差,但它不假设正态性。当变量为双变量正态时,Pearson 相关性提供了对关联的完整描述。
Spearman 的相关性适用于等级,因此提供了两个连续随机变量之间单调关系的度量。它对序数数据也很有用,并且对异常值具有鲁棒性(与 Pearson 相关性不同)。
任一相关系数的分布将取决于基础分布,尽管由于中心极限定理,两者都是渐近正态的。
不要忘记肯德尔的 tau!Roger Newson 在一篇论文中论证了 Kendall 的τ a优于 Spearman 的相关性r S作为基于等级的相关性度量,该论文的全文现已在线免费提供:
Newson R. “非参数”统计背后的参数:Kendall 的 tau、Somers 的 D 和中值差异。统计杂志2002;2(1):45-64。
他引用(在第 47 页)Kendall & Gibbons (1990) 认为“...... Spearman 的r S的置信区间比 Kendall 的τ参数的置信区间更不可靠且更难解释,但样本 Spearman 的r S更容易无需计算机即可计算”(当然,这不再重要)。不幸的是,我无法轻松获得他们的书的副本:
肯德尔、MG 和 JD 吉本斯。1990.等级相关方法。第 5 版。伦敦:格里芬。
从应用的角度来看,我更关心选择一种方法来总结两个变量之间的关系,以符合我的研究问题。我认为确定获得准确标准误差和 p 值的方法是一个应该排在第二位的问题。即使您选择不依赖渐近线,也始终可以选择引导或更改分布假设。
作为一般规则,我更喜欢 Pearson 的相关性,因为 (a) 它通常更符合我的理论兴趣;(b) 它可以更直接地比较研究结果,因为我所在地区的大多数研究都报告了 Pearson 的相关性;(c) 在许多情况下,Pearson 和 Spearman 相关系数之间的差异很小。
但是,在某些情况下,我认为 Pearson 对原始变量的相关性具有误导性。
在上述两种情况下,我建议研究人员在应用 Pearson 相关或使用 Spearman rho 之前考虑调整策略(例如,转换、异常值去除/调整)。
更新
当质疑正态性时,该问题要求我们在 Pearson 方法和 Spearman 方法之间进行选择。限于这个问题,我认为以下文件应该告知任何人的决定:
它非常好,并提供了关于这个主题的大量文献的调查,跨越数十年——从 Pearson 的“残缺和扭曲表面”和分布的稳健性开始。“事实”的至少部分矛盾性质是,这项工作的大部分是在计算能力出现之前完成的——这使事情变得复杂,因为必须考虑非正态性的类型,并且如果没有模拟就很难检查。
Kowalski 的分析得出结论,在存在非正态性的情况下的分布并不稳健,并推荐了替代程序。整篇论文内容丰富,值得推荐阅读,但请跳到论文末尾的非常简短的结论中进行总结。
如果在违反正态性时要求在 Spearman 和 Pearson 之间进行选择,则无需分发的替代方案是值得提倡的,即 Spearman 方法。
以前..
Spearman 相关性是基于等级的相关性度量;它是非参数的,并且不依赖于正态性假设。
Pearson 相关性的抽样分布确实假设正态性。特别是这意味着尽管您可以计算它,但基于显着性检验的结论可能并不可靠。
正如 Rob 在评论中指出的那样,对于大样本,这不是问题。但是,对于小样本,在违反正态性的情况下,应该首选 Spearman 相关性。
更新仔细考虑评论和答案,在我看来,这归结为通常的非参数与参数测试辩论。许多文献,例如生物统计学,不涉及大样本。我通常不会依赖渐近线。也许在这种情况下这是合理的,但这对我来说并不明显。