我只是对 Mann-Whitney U 检验的零假设感到好奇。我经常看到它说零假设是两个总体具有相等的分布。但我在想——如果我有两个均值相同但方差极不相等的正常总体,Mann-Whitney 检验可能无法检测到这种差异。
我还看到它指出 Mann-Whitney 检验的原假设是或来自一个群体 ( X ) 的观察结果超过来自第二群体 ( Y ) 的观察结果的概率(之后排除关系)等于 0.5。这似乎更有意义,但似乎并不等同于我所说的第一个零假设。
我希望能得到一些帮助来解决这个问题。谢谢!
我只是对 Mann-Whitney U 检验的零假设感到好奇。我经常看到它说零假设是两个总体具有相等的分布。但我在想——如果我有两个均值相同但方差极不相等的正常总体,Mann-Whitney 检验可能无法检测到这种差异。
我还看到它指出 Mann-Whitney 检验的原假设是或来自一个群体 ( X ) 的观察结果超过来自第二群体 ( Y ) 的观察结果的概率(之后排除关系)等于 0.5。这似乎更有意义,但似乎并不等同于我所说的第一个零假设。
我希望能得到一些帮助来解决这个问题。谢谢!
Mann-Whitney 检验是置换检验的一个特例(零下的分布是通过查看数据的所有可能排列得出的),并且置换检验将零作为相同的分布,因此这在技术上是正确的。
Mann-Whitney 检验统计量的一种思考方式是衡量从一组中随机选择的值超过从另一组中随机选择的值的次数。所以 P(X>Y)=0.5 也是有道理的,这在技术上是等分布空值的属性(假设平局概率为 0 的连续分布)。如果这 2 个分布相同,则 X 大于 Y 的概率为 0.5,因为它们都来自相同的分布。
2 个分布具有相同均值但方差差异很大的情况与第二个零假设匹配,但与第一个相同分布不匹配。我们可以做一些模拟来看看在这种情况下 p 值会发生什么(理论上它们应该是均匀分布的):
> out <- replicate( 100000, wilcox.test( rnorm(25, 0, 2), rnorm(25,0,10) )$p.value )
> hist(out)
> mean(out < 0.05)
[1] 0.07991
> prop.test( sum(out<0.05), length(out), p=0.05 )
1-sample proportions test with continuity correction
data: sum(out < 0.05) out of length(out), null probability 0.05
X-squared = 1882.756, df = 1, p-value < 2.2e-16
alternative hypothesis: true p is not equal to 0.05
95 percent confidence interval:
0.07824054 0.08161183
sample estimates:
p
0.07991
很明显,这比它应该更频繁地拒绝,并且零假设是错误的(这匹配分布的相等性,但不匹配 prob=0.5)。
如果您比较基于Efron's Dice 的总体,考虑 X > Y 的概率也会遇到一些有趣的问题。
Mann-Whitney 对均值相等的方差变化不敏感,但它可以 - 正如您在形式中看到的那样,检测导致偏离的差异(例如其中均值和方差一起增加)。很明显,如果您有两个均值相等的法线,它们的差异关于零对称。因此,这是空的情况。
例如,如果的分布是均值为的指数分布,而具有均值为的指数分布(尺度变化),Mann-Whitney 对此很敏感(实际上,取两边的对数,它只是一个位置偏移,Mann-Whitney 不受单调变换的影响)。
--
如果您对在概念上与 Mann-Whitney 非常相似的测试感兴趣,这些测试对中位数相等的分布差异很敏感,那么有几个这样的测试。
例如,Siegel-Tukey检验和 Ansari-Bradley 检验都与 Mann-Whitney-Wilcoxon 两个样本检验密切相关。
它们都基于从末端排名的基本思想。
如果您使用 R,则 Ansari-Bradley 测试内置于...?ansari.test
Siegel-Tukey 实际上只是对从样本中计算得出的等级进行了 Mann-Whitney-Wilcoxon 检验。如果您自己对数据进行排名,那么您实际上并不需要单独的 p 值函数。不过,您可以找到一些,如下所示:
--
(关于 ttnphns 在我原来的回答下的评论)
你会过度解释我的回复,将其解读为在任何特别实质性的意义上不同意@GregSnow。当然,重点有所不同,在某种程度上我们谈论的内容也有所不同,但如果背后有很多真正的分歧,我会感到非常惊讶。
让我们引用 Mann 和 Whitney 的话:“和的相对等级的被提议用于检验假设。 ”这是明确的;它完全支持@GregSnow 的立场。
现在,让我们看看统计数据是如何构建的:“让之前的次数。 ”现在如果它们的 null 为真,那么该事件的概率是 ...但是还有其他方法可以获得 0.5 的概率,从这个意义上说,人们可能会认为该测试可以在其他情况下工作。就他们估计 >的(重新调整的)概率而言,它支持我所说的。
但是,为了保证显着性水平完全正确,您需要的分布与空分布相匹配。这是基于以下假设得出的:和组标签标签的所有排列到空值下的组合观察值的可能性相同。下肯定是这种情况。正如@GregSnow 所说。
问题是这种情况在多大程度上是这种情况(即检验统计量的分布与在的假设下得出的分布相匹配,或者近似如此),对于更普遍表达的空值。
我相信在许多情况下确实如此;特别是对于包括但比您描述的情况更普遍的情况(具有相同均值但方差极不相等的两个正常人群可以在不改变基于等级的结果分布的情况下进行相当多的概括),我相信测试统计量的分布事实证明,它具有与派生它相同的分布,因此在那里应该是有效的。我做了一些似乎支持这一点的模拟。但是,它并不总是一个非常有用的测试(它可能功能很差)。
我没有提供任何证据证明情况确实如此。我应用了一些直觉/手摇论据,并进行了一些基本模拟,表明这是真的——Mann-Whitney 的工作原理(因为它在 null 下具有“正确”分布)比。
随心所欲,但我不认为这是与@GregSnow 的实质性分歧
参考 - Mann&Whitney 的原始论文