机器算法验证 - Fisher 精确检验和超几何分布 - 吾爱随笔录

我想更好地理解 Fisher 精确测试，所以我设计了以下玩具示例，其中 f 和 m 对应于男性和女性，n 和 y 对应于“苏打水消费”，如下所示：

> soda_gender

    f m
  n 0 5
  y 5 0

显然，这是一个极大的简化，但我不希望上下文妨碍。这里我只是假设男性不喝苏打水，女性喝苏打水，想看看统计程序是否得出相同的结论。

当我在 R 中运行 Fisher 精确测试时，我得到以下结果：

> fisher.test(soda_gender)
Fisher's Exact Test for Count Data

data:  soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.0000000 0.4353226
sample estimates:
odds ratio 
         0

在这里，由于 p 值为 0.007937，我们可以得出结论，性别和苏打水消费是相关的。

我知道费希尔精确检验与超几何分布有关。所以我想用它来得到类似的结果。换句话说，你可以把这个问题看成如下：有10个球，其中5个被标记为“男”，5个被标记为“女”，你随机抽取5个球，没有放回，你看到0个男球. 这种观察的机会是多少？为了回答这个问题，我使用了以下命令：

> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254

我的问题是：1）为什么这两个结果不同？2）我上面的推理有什么不正确或不严谨的吗？