Fisher 精确检验假设什么分布?

机器算法验证 假设检验 卡方检验 多项分布 列联表 渔民精确测试
2022-03-18 14:40:03

在我的工作中,我看到了 Fisher 精确检验的多种用途,我想知道它与我的数据的匹配程度如何。查看了几个来源,我了解了如何计算统计数据,但从未看到对假设的零假设的清晰和正式的解释。

有人可以解释或让我参考假设分布的正式解释吗?将不胜感激列联表中的值的解释。

2个回答

的情况下,分布假设由两个独立的二项式随机变量原假设是等式但费舍尔的精确检验是一个条件检验:它依赖于给定的条件分布。此分布是具有一个未知参数的超几何分布:优势比,然后原假设是2×2X1Bin(n1,θ1)X2Bin(n2,θ2)θ1=θ2X1X1+X2ψ=θ11θ1θ21θ2ψ=1

这个发行版有它的维基百科页面

要使用 R 对其进行评估,您可以简单地使用定义条件概率的公式:

p1 <- 7/27
p2 <- 14/70
x1 <- 7; n1 <- 27
x2 <- 14; n2 <- 56
# 
m <- x1+x2
dbinom(x1, n1, p1)*dbinom(x2, n2, p2)/sum(dbinom(0:m, n1, p1)*dbinom(m-(0:m), n2, p2))
[1] 0.1818838

或者使用包的dnoncenhypergeom功能MCMCpack

psi <- p1/(1-p1)/(p2/(1-p2)) # this is the odds ratio
MCMCpack::dnoncenhypergeom(x=x1, n1, n2, x1+x2, psi)
[1] 0.1818838

Fisher 所谓的“精确”检验做出了与检验相同的微妙假设。χ2

  • 被评估关联的两个变量是真正多分支的全有或全无变量,例如死/活美国/欧洲。如果变量中的一个或两个是基本连续体的简化,则根本不应该进行分类数据分析。
  • 没有其他相关的背景变量。如果是结果变量并且是被评估与关联的变量,那么对于每个固定在的概率是相同的列联表实际上假设未解释的异质性例如,在一项研究 A 与 B 治疗对死亡概率的影响的随机临床试验中,aYXYY=yXxYX2×2列联表检验假设接受治疗 A 的每个受试者都有相同的死亡概率。[有人可能会争辩说,这是一个过于严格的假设,但该立场并未承认进行未经调整的关联测试会导致权力损失。]

费舍尔检验做了一个假设不是由无条件关联检验(例如 Pearson 的的“当前”边际分布感兴趣,也就是说,我们以的频率为条件结果类别。这对于前瞻性研究是不合理的。使用费舍尔检验导致保守主义。它的值平均来说太大了,因为测试保证值不会太小。平均而言,Pearson值比 Fisher 的更准确,即使在某些单元格中预期频率远低于 5。χ2XYYPPχ2 P