何时使用 Fisher 和 Neyman-Pearson 框架?

机器算法验证 假设检验 p 值 方法
2022-01-19 22:21:12

我最近读了很多关于费舍尔假设检验方法和内曼-皮尔逊学派之间差异的文章。

我的问题是,暂时忽略哲学上的反对意见;我们什么时候应该使用 Fisher 的统计建模方法,什么时候应该使用 Neyman-Pearson 显着性水平等方法?有没有一种实用的方法来决定在任何给定的实际问题中支持哪种观点?

4个回答

让我首先定义我所看到的讨论术语。如果参考值是真实的总体参数,p 值是获得样本统计量(例如样本均值)样本统计量相比,或远离某个参考值的概率。例如,p 值回答了以下问题:样本均值 IQ 大于如果 100 确实是从中抽取样本的总体的平均值,则点偏离 100。现在的问题是,在进行统计推断时应该如何使用这个数字? |x¯100|

费舍尔认为 p 值可以解释为对零假设的证据的连续测量结果变得“显着”没有特定的固定值。我通常试图向人们传达这一点的方式是指出,出于所有意图和目的,p=.049 和 p=.051 构成了相同数量的反对零假设的证据(参见@Henrik's answer here) .

另一方面,Neyman & Pearson认为您可以将 p 值用作正式决策过程的一部分。在调查结束时,您必须要么拒绝原假设,要么不能拒绝原假设。此外,原假设可能为真,也可能不为真。因此,有四种理论上的可能性(尽管在任何给定的情况下,只有两种):您可以做出正确的决定(未能拒绝一个真——或拒绝一个假——零假设),或者你可以做出一个类型I 型或 II 型错误(分别通过拒绝真零假设或未能拒绝假零假设)。(请注意,p 值与 I 类错误率不同,我在这里讨论.) p 值允许决定是否拒绝原假设的过程被形式化。在 Neyman-Pearson 框架内,该过程将像这样进行:存在一个无效假设,即在没有足够的相反证据的情况下人们会默认相信,而您认为可能是正确的替代假设。有一些你愿意忍受的长期错误率(请注意,没有理由必须是 5% 和 20%)。鉴于这些情况,您设计您的研究以区分这两个假设,同时通过进行功效分析并相应地进行您的研究,最多保持这些错误率。(通常,这意味着有足够的数据。)研究完成后,将 p 值与α则拒绝原假设如果不是,则您无法拒绝零假设。不管怎样,你的学习已经完成并且你已经做出了决定。 p<α

Fisherian 和 Neyman-Pearson 方法并不相同Neyman-Pearson 框架的核心论点是,在学习结束时,您必须做出决定并离开。据称,一位研究人员曾经以“不显着”的结果与费舍尔接触,问他应该做什么,费舍尔说,“去获取更多数据”。


就个人而言,我发现 Neyman-Pearson 方法的优雅逻辑非常吸引人。但我认为这并不总是合适的。在我看来,在考虑 Neyman-Pearson 框架之前至少必须满足两个条件:

  1. 出于某种原因,您应该关心一些特定的替代假设(效果幅度)。(我不在乎效果大小是什么,你的理由是什么,是有根据还是连贯等等,只要你有一个。)
  2. 如果替代假设为真,应该有一些理由怀疑这种影响将是“显着的”。(在实践中,这通常意味着您进行了功效分析,并拥有足够的数据。)

当不满足这些条件时,仍然可以按照 Fisher 的想法解释 p 值。此外,在我看来,大多数情况下这些条件都没有得到满足。以下是一些简单的示例,这些示例运行测试,但不满足上述条件:

  • 多元回归模型的综合方差分析(可以弄清楚所有假设的非零斜率参数如何组合在一起F 分布创建非中心性参数,但它不是很直观,我怀疑任何人可以)
  • 回归分析中残差正态性Shapiro-Wilk的大小以及为什么?当该大小正确时,您有多少能力拒绝零值?) W
  • 方差同质性检验的值(例如,Levene 检验;与上述相同的注释)
  • 检查假设等的任何其他测试。
  • 除研究中主要关注的解释变量之外的协变量的 t 检验
  • 初步/探索性研究(例如,试点研究)

实用性在旁观者的眼中,但是;

  • 费舍尔的显着性检验可以解释为一种确定数据是否暗示任何有趣的“信号”的方法。我们要么拒绝原假设(可能是第一类错误),要么什么都不说。例如,在许多现代“组学”应用中,这种解释很合适;我们不想犯太多的第一类错误,我们确实想提取最令人兴奋的信号,尽管我们可能会错过一些。

  • 当我们在其中做出两个不相交的选择(例如希格斯玻色子存在或不存在)时,Neyman-Pearson 的假设是有意义的。除了第一类错误的风险外,在这里我们还可以犯第二类错误——当有一个真实的信号但我们说它不存在时,做出一个“无效”的决定。NP 的论点是,在不产生太多第一类错误率的情况下,我们希望将第二类错误的风险降至最低。

通常,这两个系统看起来都不完美——例如,您可能只需要点估计和相应的不确定性度量。此外,您使用哪个版本可能并不重要,因为您报告了 p 值并将测试解释留给读者。但是要在上述方法之间进行选择,请确定 II 类错误是否(或不)与您的应用程序相关。

关键是你不能忽视哲学上的差异。统计学中的数学程序不仅仅作为您在没有一些基本假设、假设、理论......哲学的情况下应用的东西而独立存在。

也就是说,如果你坚持坚持常客哲学,可能会有一些非常具体的问题需要 Neyman-Pearson 考虑。它们都属于质量控制或 fMRI 等重复测试类别。事先设置一个特定的 alpha 并考虑整个 Type I、Type II 和电源框架在该设置中变得更加重要。

我的理解是:p 值是告诉我们相信什么(用足够的数据验证一个理论),而 Neyman-Pearson 方法是告诉我们该做什么(即使在数据有限的情况下也能做出最好的决策)。所以在我看来,(小)p 值更严格,而 Neyman-Pearson 方法更务实;这可能就是为什么 p 值更多地用于回答科学问题而 Neyman 和 Pearson 更多地用于做出统计/实际决策的原因。