存在某种学派,根据该学派,最普遍的统计检验方法是两种方法之间的“混合”:Fisher 的方法和 Neyman-Pearson 的方法;据称,这两种方法是“不相容的”,因此产生的“混合”是一种“不连贯的混搭”。我将在下面提供参考书目和一些引用,但现在我只想说,在维基百科关于统计假设检验的文章中有很多关于此的内容。在 CV 上,@Michael Lew 反复提出了这一点(请参阅此处和此处)。
我的问题是:为什么声称 F 和 NP 方法不兼容,为什么混合方法声称不连贯?请注意,我阅读了至少六篇反混合论文(见下文),但仍然无法理解问题或论点。另请注意,我不建议争论 F 或 NP 是否是更好的方法;我也不打算讨论常客与贝叶斯框架。相反,问题是:接受 F 和 NP 都是有效且有意义的方法,它们的混合有什么不好?
这是我对这种情况的理解。Fisher 的方法是计算-value 并将其作为反对原假设的证据。越小,越有说服力的证据。研究人员应该将这些证据与他的背景知识结合起来,判断它是否足够有说服力,并据此进行。(请注意,费舍尔的观点多年来发生了变化,但这似乎是他最终趋同的。)相比之下,内曼-皮尔森方法是选择提前然后检查是否; 如果是这样,则称其为显着并拒绝原假设(这里我省略了与当前讨论无关的大部分 NP 故事)。另请参阅 @gung 在何时使用 Fisher 和 Neyman-Pearson 框架?
混合方法是计算-value,报告它(隐式假设越小越好),如果(通常),否则不显着。这应该是不连贯的。同时做两件有效的事情怎么可能是无效的,打败我。
反混合主义者认为报道的普遍做法特别不连贯-值作为,, 或者(甚至),总是选择最强的不等式。论点似乎是(a)证据的强度不能被正确地评估为准确的没有报告,并且(b)人们倾向于将不等式中的右手数解释为并将其视为第一类错误率,这是错误的。我在这里看不到一个大问题。一、准确申报当然是更好的做法,但没有人真正关心是否例如或者,所以在对数刻度上四舍五入并不是很糟糕(并且低于无论如何都没有意义,请参阅如何报告微小的 p 值?)。二、如果共识是调用下面的一切显着,那么错误率将是和,正如@gung 在解释假设检验中的 p 值中解释的那样。尽管这可能是一个令人困惑的问题,但它并没有让我觉得它比统计测试中的其他问题更令人困惑(在混合之外)。此外,每个读者都可以拥有自己的最爱在阅读混合论文时要记住,结果是她自己的错误率。那么有什么大不了的呢?
我想问这个问题的原因之一是,看到维基百科关于统计假设检验的文章中有多少专门用于抨击混合动力车,真的很痛苦。在 Halpin & Stam 之后,它声称应该归咎于某个 Lindquist(甚至对他的教科书进行了大量扫描,其中“错误”以黄色突出显示),当然关于 Lindquist 本人的 wiki 文章也以同样的指控开头。但是,也许我错过了一些东西。
参考
Gigerenzer,1993,统计推理中的超我、自我和本我——引入了“混合”一词,并将其称为“不连贯的混搭”
- 另见 Gigerenzer 等人最近的论述:例如Mindless statistics (2004) 和The Null Ritual。你一直想知道的关于显着性测试但不敢问的事情(2004 年)。
科恩,1994,地球是圆的() --一篇非常受欢迎的论文,被引用了近 3k,主要是关于不同的问题,但有利地引用了 Gigerenzer
古德曼,1999,迈向循证医学统计。1:P值谬误
Hubbard & Bayarri,2003 年,对证据措施的混淆('s) 与错误 ('s) 在经典统计测试中——反对“混合”的更有说服力的论文之一
Halpin & Stam,2006,归纳推理或归纳行为:Fisher and Neyman-Pearson Approaches to Statistical Testing in Psychological Research (1940-1960) [注册后免费]——指责 Lindquist 1940 年的教科书引入了“混合”方法
@Michael Lew,2006 年,药理学(和其他基础生物医学学科)中的不良统计实践:您可能不知道 P——一篇不错的评论和概述
引号
Gigerenzer:在心理学中被制度化为推论统计的不是费雪统计。一方面是费舍尔的一些想法,另一方面是内曼和 ES Pearson 的一些想法的混杂。我将这种混合称为统计推断的“混合逻辑”。
古德曼: [Neyman-Pearson] 假设检验方法为科学家提供了浮士德式的讨价还价——从长远来看,这是一种看似自动的方式来限制错误结论的数量,但只能通过放弃测量证据的能力 [a la Fisher] 和评估一次实验的真相。
Hubbard & Bayarri:经典统计检验是相互竞争且经常相互矛盾的方法的匿名混合 [...]。特别是,人们普遍未能认识到费舍尔证据的不相容性具有 I 类错误率的值,, Neyman-Pearson 统计正统。[...] 作为由 [这种] 混合 [...] 引起的困惑的一个主要例子,考虑一个广为人知的事实,即前者的值与嵌入它的 Neyman-Pearson 假设检验不兼容。[...] 例如,Gibbons 和 Pratt [...] 错误地指出:“报告 P 值,无论是准确的还是在一个区间内,实际上允许每个人选择他自己的显着性水平作为最大可容忍概率属于 I 类错误。”
Halpin & Stam: Lindquist 1940 年的文本是费舍尔和内曼-皮尔逊方法混合的原始来源。[...] 心理学家并没有坚持对统计检验的任何特定解释,而是对 Fisher 和 Neyman-Pearson 争议所涉及的概念困难持矛盾态度,实际上基本上没有意识到。
Lew:我们所拥有的是一种混合方法,既不能控制错误率,也不能评估证据的强度。