何时以及如何避免不恰当地使用 Fisher 精确检验

机器算法验证 假设检验 贝叶斯 渔民精确测试
2022-04-03 19:06:01

有人能解释一下为什么 Richard McElreath 说费舍尔的精确检验很少在他出色的贝叶斯介绍书(统计重新思考)中得到适当使用吗?

作为参考,上下文如下:

为什么测试不足以进行创新研究?介绍性统计的经典程序往往是不灵活和脆弱的。我所说的不灵活,是指他们适应独特研究环境的方法非常有限。我所说的脆弱,是指它们在应用于新环境时会以不可预测的方式失败。这很重要,因为在大多数科学的边界上,几乎不清楚哪种程序是合适的。传统的魔像都没有在新的研究环境中进行过评估,因此很难选择一个然后了解它的行为方式。一个很好的例子是 Fisher 的精确检验,它(完全)适用于极其狭窄的经验背景,但在细胞计数很小的时候经常使用。我个人在科学期刊上阅读了数百次 Fisher 精确检验的用法,但除了 Fisher 最初使用它之外,我从未见过它被恰当地使用过。即使是像普通线性回归这样在许多方面都非常灵活、能够编码大量有趣假设的过程,有时也很脆弱。例如,如果预测变量存在很大的测量误差,那么该过程可能会以惊人的方式失败。但更重要的是,它几乎总是可能比普通的线性回归做得更好,这主要是因为一种称为过拟合的现象。

1个回答

当列联表的边际总数没有通过设计固定时,很难阅读此引文,并且不能推测作者认为使用费雪精确检验只是一个错误。试题的“费雪原用”指的是品茶的名媛,她“事先被告知试题内容,即要求她品尝八杯,每杯四杯, [...]”(Fisher (1935),实验设计); & 然后“一个极其狭窄的经验背景”解析为“适用于实践中进行的少数研究的抽样方案”。

但这不是一个错误:在零假设下以足够的统计数据为条件分布数据是消除有害参数并提出正确大小的测试(这是置换测试的基础)的标准技术。边际总数包含非常少的信息,您可以使用这些信息来估计感兴趣的参数,优势比;更多的是关于您可以估计它的精度:论点是,通过对两者进行条件化获得的样本空间与仅通过一个条件或仅对总数进行条件化获得的样本空间更相关。然而,这是一个非常粗糙的样本空间,导致了可悲的功率损失。如何平衡样本空间的相关性与信息丢失?在渐近有效或无条件测试被首选之前,样本空间的粗化程度是可以接受的?这些都是令人烦恼的问题,半个世纪或更长时间以来,对二乘二列联表的分析一直存在争议。

鉴于这来自贝叶斯文本,我认为作者错过了一个机会来取笑承诺使用频率论方法可能导致的困境——就像杰恩斯在概率论:科学的逻辑中所做的那样

† 在与他的书同年发表的一篇论文中,他举了一个例子,虽然没有明确给出抽样方案,但最多可以提前固定一个边距,而且很可能只是总计数是固定的。被定罪罪犯的同性双胞胎被归类为同性双胞胎和异卵双胞胎,并在二乘二表格中被归类为自己有罪与未被定罪(Fisher (1935), “The Logic of Inductive inference”, JRSS, 98 , 1,第 39-82 页)。[编辑:数据来自 Lange (1929), Verbrechen als Schicksal: Studien am kriminellen ZwillingenWetzell (2000),发明罪犯:德国犯罪学史,1880-1945年,第 162 页] 描述了朗格的数据收集程序;它'