鉴于当今计算机的强大功能,是否有理由进行卡方检验而不是费舍尔的精确检验?

机器算法验证 卡方检验 列联表 渔民精确测试
2022-01-29 22:22:53

鉴于软件现在可以如此轻松地进行Fisher精确检验计算,是否存在任何情况,理论上或实际上,卡方检验实际上比Fisher精确检验更可取?

Fisher 精确检验的优点包括:

  • 扩展到大于 2x2 的列联表(即任何r x c表)
  • 给出精确的 p 值
  • 不需要最低预期细胞计数即可
2个回答

你可以把问题转过来。由于普通培生χ2test 几乎总是比 Fisher 的精确测试更准确,并且计算速度更快,为什么有人使用 Fisher 的测试?

请注意,对于 Pearson 的预期细胞频率必须超过 5,这是一个谬误χ2产生准确的P-价值观。只要预期的细胞频率超过 1.0,测试就是准确的,如果一个非常简单的N1N校正应用于检验统计量。


来自 R-help,2009 年

Campbell, I. 使用小样本建议对 2×2 表进行卡方检验和 Fisher-Irwin 检验。2007年医学统计26 :3661-3675。摘要

  • ...最新版本的 Armitage 书建议不要将连续性调整用于列联表卡方检验;

  • E. Pearson 卡方检验的 Pearson 修正,与原版相差 (N-1)/N 倍;

  • Cochran 指出,“预期频率小于 5”中的数字 5 是任意的;

  • 已发表研究的结果可总结如下,用于比较试验:

  1. Yates 的卡方检验的 I 类错误率低于标称值,通常低于标称值的一半;

  2. Fisher-Irwin 检验I 类错误率低于标称值;

  3. 与 Yate 的卡方检验和 Fisher-Irwin 检验相比, K Pearson 的卡方检验版本的 I 类错误率更接近标称值,但在某些情况下,I 类错误明显大于标称值;

  4. “N-1”卡方检验的行为类似于 K. Pearson 的“N”版本,但降低了高于标称值的趋势;

  5. 使用 Irwin 规则的双边Fisher-Irwin 检验不如将单边概率加倍的方法保守;

  6. 通过将单边概率加倍的 mid-P Fisher-Irwin 检验比标准版本的 Fisher-Irwin 检验表现更好,而根据 Irwin 规则的 mid-P 方法在实际 I 类错误更接近名义水平方面表现更好。 ";

  • 如果预期频率超过 1,则强烈支持“N-1”测试;

  • Fisher 检验的缺陷是基于 Fisher 的假设,即边际总数不携带有用信息;

  • 以非常小的样本量展示他们的有用信息;

  • Yates对N/2的连续性调整属于较大的过度修正,不恰当;

  • 在随机试验中使用随机化测试存在反驳论据;

  • 最坏情况的计算;

  • 总体建议:当所有预期频率至少为 1 时,使用“N-1”卡方检验;否则,使用 Irwin 规则的 Fisher-Irwin 检验进行双边检验,从任一尾部取表的可能性与观察到的一样或更少;见 Antonio Andres 给编辑的信和作者在 27:1791-1796 中的回复;2008 年。


克兰斯 GG,舒斯特 JJ。Fisher 的精确检验有多保守?两样本比较二项式试验的定量评估。2008年医学统计27 :3598-3611。摘要

  • ...第一篇真正量化 Fisher 检验保守性的论文;

  • “对于 50 之前的几乎所有样本大小,FET 的测试大小小于 0.035,即使对于超过 100 的样本大小也没有接近 0.05。”;

  • “精确”方法的保守性;

  • 参见Stat in Med 28 :173-179, 2009 以获取未得到答复的批评


Lydersen S, Fagerland MW, Laake P. 推荐的关联测试2×2表。 2009年医学统计28 :1159-1175。摘要

  • ...Fisher 精确检验不应该使用,除非中期P应用修正;

  • 无条件测试的价值;

  • 见致编辑的信 30:890-891;2011

这是一个很好的问题。

费舍尔的精确检验是费舍尔巧妙使用实验设计的一个很好的例子,以及对数据的调节(基本上是在具有观察到的行和边际总数的表上)和他在寻找概率分布方面的独创性(尽管这不是最好的例子,有关更好的示例,请参见此处)。使用计算机计算“准确”的 p 值肯定有助于获得准确的答案。

然而,在实践中很难证明 Fisher 精确检验的假设是正确的。因为所谓的“精确”来自这样一个事实,即在“品茶实验”或2x2列联表的情况下,行合计和列合计,即边际合计是设计固定的。这种假设在实践中很少被证明是合理的。有关不错的参考资料,请参见此处

“精确”这个名字让人相信这个测试给出的 p 值是精确的,不幸的是,由于这些原因,在大多数情况下,这又是不正确的

  1. 如果边际不是通过设计固定的(在实践中几乎每次都会发生),则 p 值将是保守的。
  2. 由于测试使用离散概率分布(特别是超几何分布),因此对于某些截止值,不可能计算“精确的零概率”,即 p 值。

在大多数实际情况下,使用似然比检验或卡方检验不应给出与 Fisher 精确检验有很大不同的答案(p 值)。是的,当边际固定时,Fisher 精确检验是更好的选择,但这种情况很少发生。因此,始终建议使用似然比检验的卡方检验进行一致性检查。

当 Fisher 精确检验推广到任何表时,类似的想法也适用,这基本上等同于计算多元超几何概率。因此,除了“精确” p 值之外,还必须始终尝试计算基于 p 值的卡方和似然比分布。