Fisher 精确检验和超几何分布

机器算法验证 渔民精确测试 超几何分布
2022-02-06 13:49:58

我想更好地理解 Fisher 精确测试,所以我设计了以下玩具示例,其中 f 和 m 对应于男性和女性,n 和 y 对应于“苏打水消费”,如下所示:

> soda_gender

    f m
  n 0 5
  y 5 0

显然,这是一个极大的简化,但我不希望上下文妨碍。这里我只是假设男性不喝苏打水,女性喝苏打水,想看看统计程序是否得出相同的结论。

当我在 R 中运行 Fisher 精确测试时,我得到以下结果:

> fisher.test(soda_gender)
Fisher's Exact Test for Count Data

data:  soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.0000000 0.4353226
sample estimates:
odds ratio 
         0 

在这里,由于 p 值为 0.007937,我们可以得出结论,性别和苏打水消费是相关的。

我知道费希尔精确检验与超几何分布有关。所以我想用它来得到类似的结果。换句话说,你可以把这个问题看成如下:有10个球,其中5个被标记为“男”,5个被标记为“女”,你随机抽取5个球,没有放回,你看到0个男球. 这种观察的机会是多少?为了回答这个问题,我使用了以下命令:

> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254

我的问题是:1)为什么这两个结果不同?2)我上面的推理有什么不正确或不严谨的吗?

1个回答

费舍尔的精确检验通过调节表格边距(在这种情况下,5 名男性和女性以及 5 名喝苏打水的人和不喝酒的人)来工作。在原假设的假设下,观察男性苏打水饮用者、男性非苏打水饮用者、女性苏打水饮用者或女性非苏打水饮用者的细胞概率均等可能 (0.25),因为边际总计。

您用于 FET 的特定表格除了它的 converse 之外没有其他表格,即 5 名女性不喝苏打水和 5 名男性喝苏打水,这在原假设下“至少不太可能”。因此,您会注意到,将您在超几何密度中获得的概率加倍会得到 FET p 值。