“p值”的确切值没有意义吗?

机器算法验证 统计学意义 p 值 邦费罗尼
2022-02-14 02:16:45

我在 2009 年与一位统计学家讨论过,他说 p 值的确切值是无关紧要的:唯一重要的是它是否显着。即一个结果不能比另一个更重要;例如,您的样本要么来自同一人群,要么不来自同一人群。

我对此有些疑虑,但我也许可以理解这种意识形态:

  1. 5% 的阈值是任意的,即 p = 0.051 不显着而 p = 0.049 不应该真正改变您的观察或实验的结论,尽管一个结果显着而另一个结果不显着。

    我现在提出这个问题的原因是我正在攻读生物信息学硕士学位,并且在与该领域的人交谈之后,似乎有一种坚定的动力来为他们所做的每组统计数据获得准确的 p 值。例如,如果他们“实现”了 p < 1.9×10 -12的 p 值,他们想证明他们的结果有多重要,并且这个结果信息量很大。这个问题以如下问题为例:为什么我不能得到一个小于 2.2e-16 的 p 值?,他们想要记录一个值,表明仅凭偶然性,这将远小于万亿分之一。但我认为证明这一结果的发生率将低于万亿分之一,而不是十亿分之一。

  2. 我可以理解 p < 0.01 表明发生这种情况的可能性小于 1%,而 p < 0.001 表明这样的结果比上述 p 值更不可能,但如果你得出的结论完全不同的?毕竟它们都是显着的 p 值。我能想到的想要记录精确 p 值的唯一方法是在 Bonferroni 校正期间,其中阈值由于进行的比较次数而变化,从而减少 I 型错误。但即便如此,为什么要显示比阈值显着性小 12 个数量级的 p 值?

  3. 并且应用 Bonferroni 校正本身是不是也有点武断?从某种意义上说,最初的校正被视为非常保守,因此可以选择其他校正来访问观察者可以用于多重比较的显着性水平。但正因为如此,根据研究人员想要使用的统计数据,某事变得重要且本质上可变的点不是。统计数据应该对解释如此开放吗?

总之,统计数据不应该不那么主观(尽管我猜它的主观性是多元系统的结果),但最终我想要澄清一下:有什么东西比其他东西更重要吗?p < 0.001 是否足以记录准确的 p 值?

2个回答
  1. 类型 1 / 错误拒绝错误率不是完全任意的,但是是的,它很接近。它比更可取,因为它在认知上不那么复杂(人们喜欢整数和 5 的倍数)。这是怀疑主义和实用性之间的一个不错的折衷,虽然可能有点过时——如果必须有标准的话,值)更可取(约翰逊,2013 年α=.05α=.051p

    IMO,比阈值的选择更大的问题是在没有必要或没有帮助的情况下使用阈值的经常未经检查的选择。在必须做出实际选择的情况下,我可以看到它的价值,但许多基础研究并不需要仅仅因为给定样本的反对证据不足而决定放弃证据并放弃拒绝无效的前景几乎任何合理的阈值。然而,这项研究的许多作者都觉得有义务按照惯例这样做,并且不舒服地抵制它,发明了诸如“边际”意义之类的术语来乞求关注,因为他们可以感觉到它正在溜走,因为他们的观众通常不关心 s . 如果您在p.05p值解释,你会看到很多关于通过关于 null的二进制/决定值的分歧。pfail toreject

  2. 完全不同——不。有意义的不同——也许吧。显示一个小得离谱的值的一个原因是暗示有关效果大小的信息。当然,出于几个技术原因,仅报告效果大小会好得多,但作者通常不会考虑这种替代方案,不幸的是,观众也可能不太熟悉它。在没有人知道如何报告效应大小的零假设世界中,人们最常猜测的可能是较小的意味着较大的效应。无论这个零假设的世界在多大程度上比相反的更接近现实,也许出于这个原因请理解,这点纯属魔鬼的鼓吹……ppp

    通过在这里进行非常类似的辩论,我了解到 s 的另一个用途是作为似然函数的索引。请参阅 Michael Lew 的评论和文章Lew,2013 年)在我对“容纳 p 值的根深蒂固的观点”的回答中链接p

  3. 我不认为 Bonferroni 校正真的是同样的武断。它纠正了我认为我们同意至少接近完全任意的阈值,因此它不会失去任何基本的任意性,但我认为它不会给等式增加任何任意性。修正是以一种合乎逻辑的、务实的方式定义变化似乎需要相当复杂的论据来证明它们不仅仅是任意的,而我认为在没有必须克服其中任何吸引人但简单的逻辑。α

    如果有的话,我认为应该更容易解释!即,null 是否真的比替代方案更有用应该不仅仅取决于反对它的证据,包括获得更多信息的成本以及由此获得的更精确知识的附加增量价值。这本质上是费舍尔无门槛的想法,AFAIK 就是这一切的开始。请参阅“关于 p 值,为什么是 1% 和 5%?为什么不是 6% 或 10%?p

如果fail to/reject危机不是从一开始就强迫零假设,那么对统计显着性的更持续理解肯定会承认持续增加显着性的可能性。在统计显着性的二分法中(我认为这有时被称为 Neyman-Pearson 框架;参见Dienes,2007 年),不,任何重要的结果都与下一个结果一样重要——不多也不少。这个问题可能有助于解释这个原理:“为什么在原假设下 p 值是均匀分布的? ”至于有多少个零是有意义且值得报告的,我推荐 Glen_b 对这个问题的回答:“p- 值被报告?(为什么 R 会在 2.22e-16 上设置最小值?) ”——这比你在 Stack Overflow 上链接的那个问题的答案要好得多!

参考资料
- Johnson, VE (2013)。修订的统计证据标准。美国国家科学院院刊,110 (48), 19313–19317。取自http://www.pnas.org/content/110/48/19313.full.pdf
- 刘,MJ(2013 年)。To P or not to P:关于 P 值的证据性质及其在科学推理中的位置。arXiv:1311.0081 [stat.ME]。取自http://arxiv.org/abs/1311.0081

在我看来,如果一个值是有意义的,那么它的确切值是有意义的。

p 值回答了这个问题:

如果在随机抽取这个样本的总体中,原假设为真,那么得到一个检验统计量至少与我们在样本中得到的统计量一样极端的概率是多少?

这个定义如何使精确值变得毫无意义?

这是一个与 p 的极端值不同的问题。涉及带有许多 0 的 p 的陈述的问题在于我们在极端情况下估计 p 的程度。由于我们不能很好地做到这一点,因此使用如此精确的 p 估计是没有意义的。这与我们不说 p = 0.0319281010012981 的原因相同。我们不知道最后的数字有任何信心。

如果 p < 0.001 而不是 p < 0.05,我们的结论是否应该不同?或者,使用精确的数字,如果 p = 0.00023 而不是 p = 0.035,我们的结论是否应该不同?

我认为问题在于我们通常如何得出关于 p 的结论。我们根据某个任意级别说“显着”或“不显着”。如果我们使用这些任意级别,那么,是的,我们的结论会有所不同。但这不是我们应该思考这些事情的方式。我们应该关注证据的权重,统计测试只是证据的一部分我将(再次)插入 Robert Abelson 的“魔法标准”:

幅度 - 影响有多大?

衔接——它的表述有多精确?有很多例外吗?

一般性 - 它适用于哪个群体?

趣味性——人们会关心吗?

可信度——有意义吗?

重要的是所有这些的结合。请注意,Abelson 根本没有提到 p 值,尽管它们确实是一种幅度和清晰度的混合体。