我正在阅读Divine 等人的文章。关于对至少是序数的数据使用 Mann-Whitney 检验(即,它可能与许多关系离散)。它说明了以下内容(在第 2.3 节中):
也就是说,它(Mann-Whitney 检验)通常不依赖于任何特定的分布形式(或参数)来生成检验统计量和 p 值。事实上,比较的是整个分布,而不是任何特定于样本的汇总统计数据。但是,该过程确实取决于有关这些分布的一些假设。例如,一个重要的假设是两个分布的方差应该相同(Pratt 1964)。
如果方差不相等,本文建议在第 5.1 节中使用 Brunner-Munzel 检验而不是 Mann-Whitney 检验(以及scipy.stats.brunnermunzel手册):
尽管基本 WMW 检验可能在方差不等的情况下(尤其是样本量不等的情况下)无效,但如果最小样本量至少为 30 且方差不一致不是太极端,则 Brunner-Munzel 变体应该有效。对于小于 30 的样本大小(或大小)和/或当存在一个或多个大块的关系时,应考虑进行精确/置换 WMW 测试(在 SAS 和 R 中可用)。
本文中的假设表述如下(在双边替代情况下;):
我想知道这种 Mann-Whitney 检验的其他假设是什么?(除了方差的相等性和样本的独立性;如果我们想将此测试用于一些至少有序的数据,即不一定是连续的)
在Fay 和 Proschan (2010)的著名文章中,Mann-Whitney 检验有一个非常相似的形式化(透视),它是针对连续数据给出的:
在哪里是所有连续分布的集合,是空值并且是替代方案,是完整的允许分布集。
相等方差的假设(我之前提到过,请参阅本文开头)是为保证以下情况而引入的要求之一不会包含两者的分布和. 我想知道我们需要保证的其他假设是什么(除了方差相等)。
事实上,根据Karch (2021) 的文章,“不同观点的假设都是 Mann-Whitney 检验的核心假设可交换性的特例。在 Mann-Whitney 检验设置中,如果原假设为是的,这两个人口分布必须相同。” 换句话说,不同的观点有不同的零假设,但在每种情况下都有完整的允许分布集不应包含分布可能有在空值下。这就是为什么对于每个观点我们都有不同的假设集(即限制) 来保证这一点。
Fay 和 Proschan 在这里需要连续分布(尽管他们定义了离散分布和连续分布)。我猜他们需要这个,因为 Mann-Whitney 检验的一致性仅在连续分布中得到严格证明。然而,Divine 等人的文章。表明上述 Mann-Whitney 检验的形式化(在我的帖子开头以及文章的超链接中给出)对于离散数据(可能包含许多联系)完全有效。

