我正在查看成功的文本请求。我们有一个匹配对的数据集,一个成功,一个不成功,它们根据请求的单词长度进行匹配(因为我想消除这种影响)。我想确定哪些功能对成功很重要。
对于某些功能,例如在此请求之前同一用户的帖子数量,我得到 Mann Whitney U 和 Wilcoxon 签名等级测试的非常不同的显着性结果(我为此使用 Python/SciPy.stats):
Mann Whitney U,5.91e-6(单面)
Wilcoxon 签约 Rank,1.4e-2(双面)
这是为什么?我不是统计学家,但我对这个结果感到惊讶。“Mann-Whitney U 和 Wilcoxon 配对基本相同,因为它们在两个中位数之间进行比较,以表明两个样本是否来自同一人群。” 来自http://www.le.ac.uk/bl/gat/virtualfc/Stats/nonpcom.html
我遗漏了哪些假设,或者是什么解释了这个差距?