我想更好地理解 Fisher 精确测试,所以我设计了以下玩具示例,其中 f 和 m 对应于男性和女性,n 和 y 对应于“苏打水消费”,如下所示:
> soda_gender
f m
n 0 5
y 5 0
显然,这是一个极大的简化,但我不希望上下文妨碍。这里我只是假设男性不喝苏打水,女性喝苏打水,想看看统计程序是否得出相同的结论。
当我在 R 中运行 Fisher 精确测试时,我得到以下结果:
> fisher.test(soda_gender)
Fisher's Exact Test for Count Data
data: soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.0000000 0.4353226
sample estimates:
odds ratio
0
在这里,由于 p 值为 0.007937,我们可以得出结论,性别和苏打水消费是相关的。
我知道费希尔精确检验与超几何分布有关。所以我想用它来得到类似的结果。换句话说,你可以把这个问题看成如下:有10个球,其中5个被标记为“男”,5个被标记为“女”,你随机抽取5个球,没有放回,你看到0个男球. 这种观察的机会是多少?为了回答这个问题,我使用了以下命令:
> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254
我的问题是:1)为什么这两个结果不同?2)我上面的推理有什么不正确或不严谨的吗?