何时使用 Wilcoxon 秩和检验而不是非配对 t 检验?

机器算法验证 t检验 wilcoxon-mann-whitney 检验
2022-02-04 11:19:15

这是 Frank Harrell 在这里写的后续问题:

根据我的经验,t 分布准确所需的样本量通常大于手头的样本量。正如你所说,Wilcoxon 符号秩检验非常有效,而且它很健壮,所以我几乎总是更喜欢它而不是 t 检验

如果我理解正确 - 在比较两个不匹配样本的位置时,如果我们的样本量很小,我们更愿意使用 Wilcoxon 秩和检验而不是非配对 t 检验。

是否存在我们更喜欢 Wilcoxon 秩和检验而不是非配对 t 检验的理论情况,即使我们两组的样本量相对较大?

我对这个问题的动机源于观察到,对于单个样本 t 检验,将其用于偏态分布的不太小的样本会产生错误的 I 类错误:

n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572  # "wrong" type I error
2个回答

让我在对您的问题的评论中带您回到我们的讨论Wilcoxon 和秩检验等价于 Mann-Whitney U 检验(其对两个以上样本的直接扩展称为 Kruskal-Wallis 检验)。您可以在Wikipedia以及本文中看到 Mann-Whitney(或 Kruskal-Wallis)通常不比较均值或中位数。它比较了值的总体流行度:哪个样本“随机更大”。该测试是免分发的。T 检验比较均值。它假设正态分布。因此,测试涉及不同的假设. 在大多数情况下,我们不打算专门比较均值,而是想知道哪个样本的值更大,这使 Mann-Whitney 成为我们的默认检验。另一方面,当两个分布都是对称的时,测试一个样本是否比另一个样本“更大”的任务退化为比较两个均值的任务,然后,如果分布是正态且方差相等,则 t 检验变得有点更有力。

就在这里。例如,来自具有无限方差的分布的任何抽样都会破坏 t 检验,但不会破坏 Wilcoxon。参考非参数统计方法(Hollander 和 Wolfe),我看到 Wilcoxon 相对于 t 检验的渐近相对效率(ARE)对于均匀分布是 1.0,对于 Logistic 是 1.097(即 Wilcoxon 更好),对于 Logistic 是 1.5双指数(拉普拉斯)和指数 3.0。

Hodges 和 Lehmann 表明 Wilcoxon 相对于任何其他测试的最小 ARE 为 0.864,因此相对于其他任何测试,使用它的效率永远不会损失超过 14%。(当然,这是一个渐近的结果。)因此,Frank Harrell 使用 Wilcoxon 作为默认值可能应该被包括我自己在内的几乎所有人采用。

编辑:回应评论中的后续问题,对于那些更喜欢置信区间的人来说,Hodges-Lehmann 估计量是与 Wilcoxon 检验“对应”的估计量,并且可以围绕它构建置信区间。