这样想 - 总体而言,存在显着差异,但很难准确地说出哪两个显着不同。或者,考虑三个 p 值小于 0.1 的可能性(即使它们不是相互独立的)——非常小,对吧?因此,总的来说,我们可能会怀疑数据中存在重要的东西,但无法准确判断出在哪里。
您的小样本量无济于事;它们意味着您的测试的功效非常低,并且还严重限制了您可以获得什么样的 p 值,如以下示例所示:
> g1a <- rnorm(3,0,1)
> g2a <- rnorm(3,2.5,1)
> g3a <- rnorm(3,5,1)
>
> y <- list(g1a,g2a,g3a)
> y
[[1]]
[1] -2.31356435 -0.09903136 -0.42037052
[[2]]
[1] 2.806082 2.799857 3.383844
[[3]]
[1] 6.543636 6.845559 4.838341
> kruskal.test(y)
Kruskal-Wallis rank sum test
data: y
Kruskal-Wallis chi-squared = 7.2, df = 2, p-value = 0.02732
到现在为止还挺好。关于三个 Wilcoxon 测试:
> wilcox.test(g1a,g2a,paired=FALSE,exact=TRUE)
Wilcoxon rank sum test
data: g1a and g2a
W = 0, p-value = 0.1
alternative hypothesis: true location shift is not equal to 0
> wilcox.test(g2a,g3a,paired=FALSE,exact=TRUE)
Wilcoxon rank sum test
data: g2a and g3a
W = 0, p-value = 0.1
alternative hypothesis: true location shift is not equal to 0
> wilcox.test(g1a,g3a,paired=FALSE,exact=TRUE)
Wilcoxon rank sum test
data: g1a and g3a
W = 0, p-value = 0.1
alternative hypothesis: true location shift is not equal to 0
所有三个 p 值都为 0.1,但我们无法变得更极端 - W = 0 - 所以显然我们已经达到了对 p 值施加的样本量限制。