当因变量是连续的时,我想比较两个独立组(女性和男性)之间的差异。但是,我的样本量非常小(N=6)。我已经进行了 Mann-Whitney U 检验,但我不确定在小样本的情况下结果是否有意义。
我可以对非常小的样本使用 Mann-Whitney U 检验吗?
这已在本网站上进行了详细讨论。简而言之,测试是有效的。但是没有测试特别有用,因为我们无法解释大的 p 值,这并不表示“没有差异”。相反,我会用置信区间或贝叶斯可信区间替换测试。无论样本量如何,无论零假设是否为真,这些都有解释。
弗兰克的建议很有用;我不希望我的回答表明与该答案有任何分歧。
Wilcoxon-Mann-Whitney 检验在小样本中“正常工作”。有几点需要注意:
尝试在小样本中使用假设检验时会遇到常见问题,例如针对除大效应之外的任何事物(以及随之而来的所有后果)的低功效。这并不特定于您正在使用的测试——由于相同的小样本量,其他测试也会有同样的问题。
置换检验(例如 Wilcoxon-Mann-Whitney 检验)通常不会完全达到所需的 I 类错误率,尽管这种影响只会在非常小的样本中特别明显。例如,如果您的拒绝规则是“如果计算机告诉我 p 值为0.05",那么由于检验统计量的离散性,您实际上不会达到目标的 5% 显着性水平。使用 Wilcoxon-Mann-Whitney,以及一个双边替代方案,该拒绝规则实际上导致 4.1% 的 I 类错误率(如果计算机使用精确的 p 值计算,至少),因此以这种方式进行的测试有些保守。[有一种方法可以在不进行随机测试的情况下至少在一定程度上缓解这个问题,尽管最好通过详细说明来避免分散对主要问题的注意力。]
根据 p 值投射拒绝规则意味着您只能获得下一个较低的显着性水平到您正在寻找的那个。想象一下,你想要一个 1% 的测试;那么你得到的第一类错误率就会从那里下降,即使只有一个略高于1% 的错误率,如果你意识到它就在那里,你可能会很乐意使用它。例如,如果可用的显着性水平为 0.4% 和 1.01%,则通过将 p 值与您最初目标的显着性水平进行比较的方法,您将获得 0.4% 的水平。当调整多个测试的个体显着性水平以控制总体 I 类错误时,这个问题变得更加明显,并且在比您的样本量更小的情况下更糟。
这种方式很可能会导致您的实际显着性水平不仅“低于您想要的”,而且确切地说. 这不仅仅是理论上的可能性,在实践中不会发生我见过很多人在没有意识到的情况下就这样做了。我认为最好(在查看数据以避免出现任何 p-hacking 出现之前)考虑可用的显着性水平并在充分了解将要面临的情况的情况下选择测试策略,而不是在看到之后对它感到惊讶数据 - 或者更糟的是,甚至从未意识到使用正在使用的拒绝规则拒绝 null 是不可能的。
对于您使用的任何测试,识别所有可用的显着性级别并不难(例如,对于您询问的特定情况,可以使用一行 R 代码完成),我看不出有什么好处当您面临小样本量和离散检验统计数据时,理所当然地不这样做。
对于 2 个样本的 Wilcoxon 秩和检验(相当于 Mann-Whitney U 检验),两个样本中每个样本的最小样本量为 为了使单边检验给出 5% 或更低的显着性水平。即便如此,意义也需要完全分离;也就是说,一个样本中的所有观测值必须小于另一个样本中的任何观测值(并且没有绑定数据)。使用 R:
wilcox.test(c(5,6,7),c(2,3,4), alt="g")
Wilcoxon rank sum test
data: c(5, 6, 7) and c(2, 3, 4)
W = 9, p-value = 0.05
alternative hypothesis:
true location shift is greater than 0
那是因为
1/choose(6,3)
[1] 0.05
同样,对于 5% 或以下水平的双边测试,最小样本量为
wilcox.test(c(5,6,7,8),c(1,2,3,4))
Wilcoxon rank sum test
data: c(5, 6, 7, 8) and c(1, 2, 3, 4)
W = 16, p-value = 0.02857
alternative hypothesis:
true location shift is not equal to 0
那是因为
2/choose(8,4)
[1] 0.02857143
还,
wilcox.test(c(5,6,7,8),c(1,2,3))$p.val
[1] 0.05714286