Fisher 和 Neyman-Pearson 的统计测试方法之间的“混合”真的是“不连贯的混搭”吗?

机器算法验证 假设检验 统计学意义 p 值 类型 i 和 ii 错误 历史
2022-01-15 04:07:22

存在某种学派,根据该学派,最普遍的统计检验方法是两种方法之间的“混合”:Fisher 的方法和 Neyman-Pearson 的方法;据称,这两种方法是“不相容的”,因此产生的“混合”是一种“不连贯的混搭”。我将在下面提供参考书目和一些引用,但现在我只想说,在维基百科关于统计假设检验的文章中有很多关于此的内容。在 CV 上,@Michael Lew 反复提出了这一点(请参阅此处此处)。

我的问题是:为什么声称 F 和 NP 方法不兼容,为什么混合方法声称不连贯?请注意,我阅读了至少六篇反混合论文(见下文),但仍然无法理解问题或论点。另请注意,我不建议争论 F 或 NP 是否是更好的方法;我也不打算讨论常客与贝叶斯框架。相反,问题是:接受 F 和 NP 都是有效且有意义的方法,它们的混合有什么不好?


这是我对这种情况的理解。Fisher 的方法是计算p-value 并将其作为反对原假设的证据。越小p,越有说服力的证据。研究人员应该将这些证据与他的背景知识结合起来,判断它是否足够有说服力,并据此进行。(请注意,费舍尔的观点多年来发生了变化,但这似乎是他最终趋同的。)相比之下,内曼-皮尔森方法是选择α提前然后检查是否pα; 如果是这样,则称其为显着并拒绝原假设(这里我省略了与当前讨论无关的大部分 NP 故事)。另请参阅 @gung 在何时使用 Fisher 和 Neyman-Pearson 框架?

混合方法是计算p-value,报告它(隐式假设越小越好),如果pα(通常α=0.05),否则不显着。这应该是不连贯的。同时做两件有效的事情怎么可能是无效的,打败我。

反混合主义者认为报道的普遍做法特别不连贯p-值作为p<0.05,p<0.01, 或者p<0.001(甚至p0.0001),总是选择最强的不等式。论点似乎是(a)证据的强度不能被正确地评估为准确的p没有报告,并且(b)人们倾向于将不等式中的右手数解释为α并将其视为第一类错误率,这是错误的。我在这里看不到一个大问题。一、准确申报p当然是更好的做法,但没有人真正关心是否p例如0.02或者0.03,所以在对数刻度上四舍五入并不是很糟糕(并且低于0.0001无论如何都没有意义,请参阅如何报告微小的 p 值?)。二、如果共识是调用下面的一切0.05显着,那么错误率将是α=0.05pα,正如@gung 在解释假设检验中的 p 值中解释的那样尽管这可能是一个令人困惑的问题,但它并没有让我觉得它比统计测试中的其他问题更令人困惑(在混合之外)。此外,每个读者都可以拥有自己的最爱α在阅读混合论文时要记住,结果是她自己的错误率。那么有什么大不了的呢?

我想问这个问题的原因之一是,看到维基百科关于统计假设检验的文章中有多少专门用于抨击混合动力车,真的很痛苦。在 Halpin & Stam 之后,它声称应该归咎于某个 Lindquist(甚至对他的教科书进行了大量扫描,其中“错误”以黄色突出显示),当然关于 Lindquist 本人的 wiki 文章也以同样的指控开头。但是,也许我错过了一些东西。


参考

引号

Gigerenzer:在心理学中被制度化为推论统计的不是费雪统计。一方面是费舍尔的一些想法,另一方面是内曼和 ES Pearson 的一些想法的混杂。我将这种混合称为统计推断的“混合逻辑”。

古德曼: [Neyman-Pearson] 假设检验方法为科学家提供了浮士德式的讨价还价——从长远来看,这是一种看似自动的方式来限制错误结论的数量,但只能通过放弃测量证据的能力 [a la Fisher] 和评估一次实验的真相。

Hubbard & Bayarri:经典统计检验是相互竞争且经常相互矛盾的方法的匿名混合 [...]。特别是,人们普遍未能认识到费舍尔证据的不相容性p具有 I 类错误率的值,α, Neyman-Pearson 统计正统。[...] 作为由 [这种] 混合 [...] 引起的困惑的一个主要例子,考虑一个广为人知的事实,即前者的p与嵌入它的 Neyman-Pearson 假设检验不兼容。[...] 例如,Gibbons 和 Pratt [...] 错误地指出:“报告 P 值,无论是准确的还是在一个区间内,实际上允许每个人选择他自己的显着性水平作为最大可容忍概率属于 I 类错误。”

Halpin & Stam: Lindquist 1940 年的文本是费舍尔和内曼-皮尔逊方法混合的原始来源。[...] 心理学家并没有坚持对统计检验的任何特定解释,而是对 Fisher 和 Neyman-Pearson 争议所涉及的概念困难持矛盾态度,实际上基本上没有意识到。

Lew:我们所拥有的是一种混合方法,既不能控制错误率,也不能评估证据的强度。

4个回答

我相信您努力收集的论文、文章、帖子等包含足够的信息和分析,说明这两种方法的不同之处和原因。不同并不意味着不相容

“混合”的问题在于它是混合而不是综合,这就是为什么它被许多人视为混合,如果你原谅文字游戏的话。
它不是一种综合,它不尝试将两种方法的差异结合起来,或者创建一种统一且内部一致的方法,或者将两种方法作为互补的替代方案保留在科学库中,以便更有效地处理非常复杂的问题我们试图通过统计分析世界(谢天谢地,这最后一件事似乎正在发生在该领域的另一场伟大的内战中,即常客-贝叶斯内战)。

我认为对它的不满来自于它确实在应用统计工具和解释统计结果时造成了误解,主要是不是统计学家的科学家,误解可​​能会产生非常严重和破坏性的影响(考虑该领域)医学有助于赋予问题适当的戏剧性基调)。我相信,这种误用已被广泛接受为事实——从这个意义上说,“反混合”观点可以被认为是广泛存在的(至少由于它所产生的后果,如果不是因为它的方法论问题的话)。

到目前为止,我将此事的演变视为历史事故(但我没有p-值或我的假设的拒绝区域),由于创始人之间的不幸战斗。几十年来,费舍尔和内曼/皮尔逊一直在公开激烈地争论他们的方法。这给人的印象是这是一个二分法:一种方法必须是“正确的”,而另一种方法必须是“错误的”。

我相信,这种混合体的出现是因为意识到不存在这样简单的答案,并且存在一种方法比另一种方法更适合的现实世界现象(参见这篇文章中的这样一个例子,根据我的说法,至少,Fisherian 方法似乎更合适)。但与其让两者“分开并准备好行动”,不如将它们拼凑在一起。

我提供了一个总结这种“互补替代”方法的资料来源: Spanos, A. (1999)。概率论和统计推断:使用观测数据的计量经济学模型。剑桥大学出版社。,通道。14节,特别是第 14.5 节,在正式和明确地介绍了这两种方法之后,作者能够清楚地指出它们的差异,并认为它们可以被视为互补的替代方案。

我自己对我的问题的看法是,在混合(即接受)方法中没有什么特别不连贯的。但由于我不确定我是否可能无法理解反混合论文中提出的论点的有效性,我很高兴发现与本文一起发表的讨论:

不幸的是,作为讨论发布的两个回复没有被格式化为单独的文章,因此无法正确引用。不过,我想引用他们两个的话:

伯克:第 2 节和第 3 节的主题似乎是费舍尔不喜欢内曼和皮尔森所做的事情,而内曼也不喜欢费舍尔所做的事情,因此我们不应该做任何将这两种方法结合起来的事情。这里没有逃避前提,但推理逃避了我。

卡尔顿:作者坚定地坚持认为,大多数混淆源于费雪和内曼-皮尔逊思想的结合,这种结合是现代统计学家的灾难性错误[...] [T]他们似乎打算确定 P 值和I 类错误不能在同一个宇宙中共存。目前尚不清楚作者是否给出了我们不能在同一个句子中说出“p 值”和“I 型错误”的任何实质性理由。[...] 他们 [F 和 NP] 不兼容的“事实”对我来说是一个令人惊讶的消息,因为我相信这对阅读这篇文章的数千名合格的统计学家来说确实如此。作者甚至似乎暗示,统计学家现在应该将这两种观点分开的原因之一是费舍尔和内曼并不是非常喜欢彼此(或彼此)s 测试哲学)。我一直将我们当前的实践视为我们学科的更大胜利之一,它整合了费舍尔和内曼的哲学,并允许讨论 P 值和 I 类错误——尽管肯定不是并行的。

两个回答都非常值得一读。原作者也有反驳,这对我来说完全没有说服力

我担心要真正回答这个出色的问题需要一篇完整的论文。但是,这里有几点在问题或当前答案中都不存在。

  1. 错误率“属于”程序,但证据“属于”实验结果。因此,具有顺序停止规则的多阶段程序可能会得到一个结果,该结果具有非常强的证据反对零假设,但假设检验结果不显着。这可以被认为是一种强烈的不兼容。

  2. 如果您对不兼容性感兴趣,那么您应该对潜在的哲学感兴趣。哲学上的困难来自于在遵守似然原则和遵守重复抽样原则之间的选择。LP 粗略地说,给定一个统计模型,数据集中与感兴趣的参数相关的证据完全包含在相关的似然函数中。RSP 说,从长远来看,人们应该更喜欢错误率等于其标称值的测试。

两种方法之间经常看到(并且据说被接受)的联合(或更好:“混合”)如下:

  1. 设置预先指定的级别α(0.05 说)
  2. 然后检验你的假设,例如Ho:μ=0对比H1:μ0
  3. 陈述 p 值并根据水平制定您的决定α

    如果得到的 p 值低于α,你可以说

    • “我拒绝Ho“ 或者
    • “我拒绝Ho“ 有利于H1“ 或者
    • “我是100%(1α)确定H1持有”

    如果 p 值不够小,你会说

    • “我不能拒绝Ho“ 或者
    • “我不能拒绝Ho有利于H1"

在这里,来自 Neyman-Pearson 的方面是:

  • 你决定某事
  • 你手头有一个替代假设(尽管它正好相反Ho)
  • 你知道第一类错误率

渔业方面是:

  • 你说明p值。因此,任何读者都可以使用自己的水平(例如,严格纠正多次测试)来做出决定
  • 基本上,只需要零假设,因为替代方案正好相反
  • 你不知道第二类错误率。(但你可以立即得到它的特定值μ0.)

添加在

虽然很高兴了解有关 Fisher、NP 或这种混合方法的哲学问题的讨论(正如某些人在几乎宗教狂热中所教授的那样),但在统计学中还有更多相关问题需要解决:

  • 提出无意义的问题(例如二进制是/否问题而不是定量的“多少”问题,即使用测试而不是置信区间)
  • 导致结果有偏差的数据驱动分析方法(逐步回归、测试假设等)
  • 选择错误的测试或方法
  • 误解结果
  • 对非随机样本使用经典统计