Mann Whitney 检验与 at 检验相比的功效

机器算法验证 方差分析 t检验 统计能力 wilcoxon-mann-whitney 检验
2022-03-22 08:52:06

因此,当满足正态性和齐次方差的 t 检验假设时,据推测 Mann Whitney U 检验的效力约为 t 检验的 95%。我也知道当这些假设不满足时,Mann Whitney U 检验比 t 检验更强大。我的问题是,对假设不满足的数据的 Mann Whitney 检验是否与对满足假设的数据的 t 检验一样强大?

我之所以问,是因为我经常看到人们根据他们将在测试中执行的假设进行功率计算。在他们收集数据后,他们探索数据并决定改用 Mann Whitney 测试,并没有真正重新审视更改测试如何影响功率。

谢谢!

2个回答

是对假设不满足的数据的 Mann Whitney 检验与假设满足的数据的 t 检验一样或几乎强大吗?

像“一样强大”这样的短语并不能作为一般性陈述。

在不同的分布式模型中,功率并不是特别具有可比性。给定效应的大小在分布的不同部分具有不同的含义。想象一下,你有一个非常高的分布,但有一个沉重的尾巴;通过什么衡量我们可以说特定大小的偏差类似于具有更“平坦”的中心和更小的尾巴的东西?一个小的偏差可能很容易被发现,但一个大的偏差可能(相对于我们试图比较权力的其他分布可能性)更难。

有两组可能的正态分布,一组具有大 sd,另一组具有小 sd,很容易说‘好吧,功率只会随标准差成比例;如果我们根据标准偏差的数量来定义我们的效应大小,我们可以将两条功率曲线联系起来。

但是现在有了不同形状的分布,没有明显的规模选择。我们必须对如何比较它们做出一些选择。我们做出的选择将决定它们如何“比较”。

例如,当数据是 Cauchy 时,我如何比较功率与当数据是缩放的 beta(2,2) 时的功率?什么是可比效应大小?下面的 Cauchy 在 -1 和 1 之间的分布更多,在 -3 和 3 之间的分布比另一个少。例如,它们的四分位距不同。我们比较的依据是什么?

柯西 vs 缩放 Beta

如果你能解决这个难题,现在考虑一个分布是否向左倾斜,另一个是双峰分布,或者是无数其他可能性中的任何一个。

您仍然可以在任何特定的一组假设下计算功效,但是在不同的分布假设下比较一个测试而不是在给定分布假设下的两个测试在概念上非常棘手。

1) 当不满足 t 检验的假设时,不能保证 Mann-Whitney 检验比 t 检验更强大,尽管对于我们在现实世界中经常看到的各种违规行为确实如此。考虑在 +/- 100 处截断的标准正态分布以及两组平均值之间的差异 0.01;这不是正常的,但两个测试都会像正常一样执行,因为两个分布之间的差异非常小。

2) t 检验是对两个正态变量平均值之差的统一最有力的检验,所以无论如何它都不会被 Mann-Whitney 在那种数据上击败。然而,就渐近相对效率而言,Mann-Whitney 相对于 t 检验所能执行的最差值约为 0.864,即,它需要 1/0.864 倍的数据才能给出相同的功率(渐近)。Hollander 和 Wolfe,非参数统计方法。)没有任何约束可以反过来。从 Hollander 和 Wolfe 复制一些数字,对于不同的分布,我们得到 MW 的 ARE 以进行 t 检验:

  1. 正常:0.955
  2. Uniform: 1.0 <- 也是 MW 优于非正态分布的 t 的反例
  3. 物流:1.097
  4. 双指数:1.5
  5. 指数:3.0
  6. 柯西(这很容易):

当然,重点是您不能通过使用 Mann-Whitney 检验而不是 t 检验来击中自己的脚,但反之则不然。