至少对有序数据进行 Mann-Whitney 检验的假设

机器算法验证 假设检验 假设 wilcoxon-mann-whitney 检验
2022-04-17 08:58:03

我正在阅读Divine 等人的文章。关于对至少是序数的数据使用 Mann-Whitney 检验(即,它可能与许多关系离散)。它说明了以下内容(在第 2.3 节中):

也就是说,它(Mann-Whitney 检验)通常不依赖于任何特定的分布形式(或参数)来生成检验统计量和 p 值。事实上,比较的是整个分布,而不是任何特定于样本的汇总统计数据。但是,该过程确实取决于有关这些分布的一些假设。例如,一个重要的假设是两个分布的方差应该相同(Pratt 1964)。

如果方差不相等,本文建议在第 5.1 节中使用 Brunner-Munzel 检验而不是 Mann-Whitney 检验(以及scipy.stats.brunnermunzel手册):

尽管基本 WMW 检验可能在方差不等的情况下(尤其是样本量不等的情况下)无效,但如果最小样本量至少为 30 且方差不一致不是太极端,则 Brunner-Munzel 变体应该有效。对于小于 30 的样本大小(或大小)和/或当存在一个或多个大块的关系时,应考虑进行精确/置换 WMW 测试(在 SAS 和 R 中可用)。

本文中的假设表述如下(在双边替代情况下;X1F,X2G):

  • H0: P(X1>X2)+12P(X1=X2)=12.
  • H1: P(X1>X2)+12P(X1=X2)12.

我想知道这种 Mann-Whitney 检验的其他假设是什么?(除了方差的相等性和样本的独立性;如果我们想将此测试用于一些至少有序的数据,即不一定是连续的)


在Fay 和 Proschan (2010)的著名文章中,Mann-Whitney 检验有一个非常相似的形式化(透视),它是针对连续数据给出的:

曼-惠特尼

在哪里ΨC是所有连续分布的集合,H3是空值并且K3是替代方案,P=H3K3是完整的允许分布集。

相等方差的假设(我之前提到过,请参阅本文开头)是为保证以下情况而引入的要求之一P不会包含两者的分布ϕ(F,G)=1/2FG. 我想知道我们需要保证的其他假设是什么(除了方差相等)。
事实上,根据Karch (2021) 的文章,“不同观点的假设都是 Mann-Whitney 检验的核心假设可交换性的特例。在 Mann-Whitney 检验设置中,如果原假设为是的,这两个人口分布必须相同。” 换句话说,不同的观点有不同的零假设,但在每种情况下都有完整的允许分布集P不应包含分布(F,G)可能有FG在空值下。这就是为什么对于每个观点我们都有不同的假设集(即限制P) 来保证这一点。

Fay 和 Proschan 在这里需要连续分布(尽管他们定义了ϕ(F,G)离散分布和连续分布)。我猜他们需要这个,因为 Mann-Whitney 检验的一致性仅在连续分布中得到严格证明。然而,Divine 等人的文章。表明上述 Mann-Whitney 检验的形式化(在我的帖子开头以及文章的超链接中给出)对于离散数据(可能包含许多联系)完全有效。

2个回答

计算检验统计量分布的 MW 检验的原假设是H0: F=G,这两个分布是一样的。这显然意味着它们的方差是相同的,但后一个“假设”实际上并没有添加任何东西(见下文)。还假设数据是独立同分布的

我认为关于关系的混淆来自于在提到 MW 测试时的实际含义的不精确性,只是测试统计数据,或者也H0. 如果存在联系,无论是渐近还是有限样本,在H0用于测试的必须修改。可以这样做(因此可以应用测试),但是如果不这样做,测试会被视为无效。

现在“等方差”假设怎么样?我已经提到了原假设,但是可以说一个有效的检验不仅要求分布在H0是正确指定的,但也表明它具有替代项下的一些属性。最低要求是测试应该是无偏的,即在替代方案中的任何分布下拒绝的概率不应小于α,拒绝下的概率H0. 对于我所学到的替代方案(这是 Fay 和 Proschan 中提到的可能性之一),不偏不倚很容易出现,即F随机大于G(即,cdf 的F处处小于或等于 ifG,以及更小的地方)。不需要相等的方差,上面从 Fay 和 Proschan 引用的“透视 3”也不需要。尽管有一些具有不等方差的分布对的示例FGP(X1>X2)+12P(X1=X2)=12(我相信虽然我没有检查这是否适用于具有相等均值和不同方差的两个高斯分布),但我认为说 MW 测试“假设方差相等”是没有意义的。计算下检验统计量的分布H0假设甚至更多,并且上述有效替代方案在无偏测试中包含许多具有不等方差的分布对。

事实上,可以说使用问题中给出的第一个替代方案(相当于 Fay 和 Proschan 的观点 3),除了 iid 之外根本没有进一步的假设,因为它包含所有分布,并且测试似乎在那里没有偏见(我没有'没有检查是否是这种情况,但如果 Fay 和 Proschan 或 Divine 等人声称这一点,很可能是真的 -更正:这显然不是真的,评论中引用的 Karch 论文中有一个反例,我没有不认为这是前面提到的作者声称的)。但是,对于测试结果的某些解释可能会隐含一些假设,因此需要注意这一点。例如,如果拒绝零假设被视为证据表明F随机大于G,人们应该知道,该测试对一些并非如此的替代方案也是无偏见的,并且隐含地假设这些替代方案不会获得(一种可能性是具有不同均值和不同方差的高斯分布 - 这属于据我所知,“透视3”替代方案,但不是“随机较大”替代方案)。此外,正如 Fay 和 Proschan 提到的,有一些分布FGP(X1>X2)+12P(X1=X2)=12, MW 测试无法检测到(尽管在这种情况下用户是否愿意拒绝,或者他们是否乐意说没有证据表明一种分布倾向于比另一个大。

总结一下,Fay 和 Proschan 对不同“视角”的区分很重要,因为实际上不同的视角在解读测试结果时会做出不同的隐含假设,而没有意识到这一点可能会导致误解。可以说,在数学上运行测试本身不需要这样的假设(可以将所有具有拒绝概率的分布作为零假设α并且作为替代所有那些拒绝概率较大的人),但要理解结果。

关于“正确”使用两样本 Wilcoxon(秩和)检验存在一些分歧。也许这是因为它经常以可能令其创建者惊讶的方式使用,并且因为各种软件程序已经实现了各种各样的版本来适应(中等比例的)关系和其他偏离规范假设的情况。

合理确定 Wilcoxon RS 测试在特定情况下如何工作的一种方法是尝试一下,看看实际发生了什么。

以下简短的模拟假设两个种群必须具有相同的形状,仅相差一个偏移;这个假设通常被认为意味着总体方差必须相等。

相比之下,R 中的实现可以被视为一个测试是否一个分布随机支配另一个分布——直到一个点,不管形状或方差如何。

我使用该测试来比较分布 (a) 中大小为 50 的样本Norm(μ=100,σ=5), (二)Norm(μ=100,σ=10),(c) Norm(μ=105,σ=10).

首先,我们使用 Wilcoxon SR 检验来比较 null (a) 和替代 (b),即形状上的差异;其次,比较 null (a) 与替代 (c),即形状和位置的差异。

set.seed(1123)
pv = replicate(10^4, wilcox.test(rnorm(50, 100, 5), 
                      rnorm(50,100,10))$p.val)
mean(pv <= .05)
[1] 0.0577         # (a vs b) true level about 6%, not exactly 5%

par(mfrow=c(1,3))
 hist(pv, prob=T, col="skyblue2", main="Same Centers")

pv = replicate(10^4, wilcox.test(rnorm(50, 100, 5), 
                      rnorm(50,105,10))$p.val)
mean(pv <= .05)
[1] 0.8483         # (a vs c) power about 85%

hist(pv, prob=T, br=20, col="skyblue2", main="Different Centers")

curve(pnorm(x,100,5),50,150, lwd=2, col="green3", lty="dashed")
 curve(pnorm(x,100,10), add=T, col="blue")
 curve(pnorm(x,105,10), add=T, col="maroon", lty="dotted")
par(mfrow=c(1,1))

该图的第一个面板显示了比较 (a) 与 (b) 的 P 值的大致均匀分布,第二个显示了比较 (a) 与 (c) 的功率(最左侧的直方图条)。

第三幅图显示分布 (a) [破碎的绿色] 和 (b) [实心的蓝色] 都不是随机占主导地位的。它还表明 (c) [红色虚线] 占主导地位 (a),主要绘制在 (a) 的右侧和下方。

在此处输入图像描述

最后,我们注意到,由于数据是正态的,比较 (a) 和 (b) 最合适的检验是两样本 Welch t 检验,它不假设方差相等;其显着性水平非常接近标称的 5% 水平(无数字)。

set.seed(1123)
pv = replicate( 10^4, t.test( rnorm(50, 100, 5), 
                       rnorm(50,100,10) )$p.val )
mean(pv <= .05)
[1] 0.0484      # aprx 5%

这里的重点不是给出任何一种 Wilcoxon RS 测试实现的属性的详尽目录。这是为了说明简单的模拟如何有助于解决特定的争议。

注意: Wilcoxon 秩和检验和 Mann-Whitney U 检验的原始版本使用不同但本质上相同的检验统计量。