Mann-Whitney 检验和 Wilcoxon 符号秩检验显着性之间的巨大差异

机器算法验证 wilcoxon-mann-whitney 检验 威尔克森符号秩
2022-03-29 11:49:14

我正在查看成功的文本请求。我们有一个匹配对的数据集,一个成功,一个不成功,它们根据请求的单词长度进行匹配(因为我想消除这种影响)。我想确定哪些功能对成功很重要。

对于某些功能,例如在此请求之前同一用户的帖子数量,我得到 Mann Whitney U 和 Wilcoxon 签名等级测试的非常不同的显着性结果(我为此使用 Python/SciPy.stats):

Mann Whitney U,5.91e-6(单面)

Wilcoxon 签约 Rank,1.4e-2(双面)

这是为什么?我不是统计学家,但我对这个结果感到惊讶。“Mann-Whitney U 和 Wilcoxon 配对基本相同,因为它们在两个中位数之间进行比较,以表明两个样本是否来自同一人群。” 来自http://www.le.ac.uk/bl/gat/virtualfc/Stats/nonpcom.html

我遗漏了哪些假设,或者是什么解释了这个差距?

1个回答

在 scipy.stats 中,Mann-Whitney U 检验比较了两个总体:

计算样本 x 和 y 的 Mann-Whitney 秩检验。

但是 Wilcoxon 检验比较了两个 PAIRED 人群:

Wilcoxon 符号秩检验检验两个相关配对样本来自同一分布的原假设。特别是,它测试差异 x - y 的分布是否关于零对称。它是配对 T 检验的非参数版本。

已编辑/更正以回应 ttnphns 的评论。

请注意,t 不检验差异的分布是否关于零对称,因此 Wilcoxon 符号秩检验并不是真正的配对 t 检验的非参数对应物。

另一方面,Mann-Whitney 检验假设所有观察结果都是相互独立的(这里没有配对的基础!)。它还假设这两个分布是相同的,另一种选择是一个随机大于另一个。如果我们额外假设两个分布之间的唯一区别是它们的位置,并且分布是连续的,那么“随机大于”相当于“中位数不同”这样的陈述,所以你可以,加上额外的假设,以这种方式解释。

Mann-Whitney 默认使用连续性校正,但 Wilcoxon 不使用。

Mann-Whitney 使用中秩处理平局,但 Wilcoxon 提供了三个选项来处理配对值中的平局(即,配对的两个元素之间的差异为零。)

听起来 Wilcoxon 检验更适合您的目的,因为您在所有观察之间确实缺乏独立性。但是,人们可能会想象具有相似但不相等长度的请求可能会表现出相似的行为,而 Wilcoxon 会假设如果它们不成对,它们是独立的。在这种情况下,逻辑回归模型可能会更好地为您服务。

引用来自 scipy.stats 文档页面,显然我们不应该链接到这些页面。