Fisher 检验的假设“行和列的总数应该是固定的”是什么意思?

机器算法验证 假设检验 渔民精确测试
2022-03-01 19:16:00

正如这个消息来源所说,执行 Fisher 独立性精确检验的假设之一是行和列的总数应该是固定的。但是,我发现随之而来的解释非常模糊,并且在互联网上找不到任何说明该原理的示例。

有人可以举一个很好的例子来解释这个假设吗?

1个回答

在我看来,您链接到的来源是错误的,因为它将条件反射与假设混淆了。

Fisher 对边际总额的精确检验条件,这意味着它不使用任何可能从边际总额中推断出的独立性信息。从理论上讲,一旦您以随机变量为条件,该随机变量就会在下游计算中被视为固定变量。然而,这纯粹是一种数学装置。这与假设边际总量作为实验设计的一部分预先固定完全不同。这只是选择从数据中提取什么信息的问题。

调节实际上减少了测试所做的假设。由于 Fisher 检验仅使用给定边缘计数的细胞计数分布,因此它不对边缘计数的生成方式做出任何假设。

您链接到的消息来源指出,Fisher 的精确检验比 Pearson 的卡方检验或 G 检验做出更多假设。在我看来,这种说法是错误的。所有三个测试都以保证金总额为条件,并且所有三个都做出相同的分布假设。无论边际总数是否固定,Fisher 精确检验都能正确控制 I 类错误率,并且 p 值是精确的,因为它们是从使用超几何分布的精确计算中得出的。

IMO 在互联网上对这个问题有很多误解,它可能源于最优性问题。如果边际总数不是由实验设计固定的,则可能存在关于行总数和列总数中包含的独立性的信息,因此可能会创建一个比 Fisher 精确检验更强大的统计检验。有一些关于此的有趣文献,但在实践中(i)如果计数很小,则没有太多信息可以检索,并且(ii)当计数很大时,Fisher 精确检验已经足够强大。

另一个误解是,人们将“精确”解释为意味着 I 类错误率被精确控制在指定的速率上。像所有返回离散计数的精确 p 值的测试一样,Fisher 检验对任何预先指定的 I 类错误率给出了某种保守的控制,这仅仅是因为 p 值是粒度的(这与边距是否固定无关或不)。