p 值本质上是无用的并且使用起来很危险吗?

机器算法验证 假设检验 统计学意义 贝叶斯 p 值 可重复研究
2022-01-25 18:45:52

纽约时报的这篇文章“ The Odds, Continuously Updated”恰好引起了我的注意。简而言之,它指出

[贝叶斯统计] 被证明在解决复杂问题方面特别有用,包​​括海岸警卫队在 2013 年用于寻找失踪渔民约翰·奥尔德里奇的搜索(尽管到目前为止,在寻找马来西亚航空公司 370 航班时还没有)。 ......,从物理学到癌症研究,从生态学到心理学,贝叶斯统计数据正在波及所有领域..​​....

在文章中,也有一些关于常客的 p 值的批评,例如:

如果 p 值小于 5%,则结果通常被认为具有“统计学意义”。但哥伦比亚大学统计学教授安德鲁·格尔曼说,这种传统存在危险。即使科学家们总是正确地进行计算——而他们没有,他认为——接受所有 p 值为 5% 的东西意味着 20 个“具有统计意义”的结果中就有一个只是随机噪声。

除了上述之外,也许最著名的批评 p 值的论文是来自 Nature 的 Regina Nuzzo 的“科学方法:统计错误”,其中讨论了 p 值方法提出的许多科学问题,例如可重复性问题, p值黑客攻击等

P 值是统计有效性的“黄金标准”,并不像许多科学家认为的那样可靠。......也许最严重的谬误是那种自欺欺人,宾夕法尼亚大学的心理学家 Uri Simonsohn 和他的同事们已经普及了 P-hacking 这个术语。它也被称为数据挖掘、窥探、钓鱼、重要性追逐和双重浸入。“P-hacking”,Simonsohn 说,“正在尝试多种事情,直到你得到想要的结果”——甚至是无意识的。......“这一发现似乎是通过 p-hacking 获得的,作者放弃了其中一个条件,使整体 p-value 小于 0.05”,以及“她是 p-hacker,她总是在收集数据时监控数据。”

另一件事是从这里开始的一个有趣的情节,关于情节的评论:

无论您的影响多么小,您始终可以努力收集数据以通过 p < .05 的阈值。只要您研究的效果不存在,p 值就可以衡量您在收集数据方面付出了多少努力。

在此处输入图像描述

综上所述,我的问题是:

  1. Andrew Gelman 在第二块引用中的论点究竟是什么意思?为什么他将 5% 的 p 值解释为“每 20 个具有统计学意义的结果中就有一个注意到但随机噪声”?我不相信,因为对我来说 p 值用于对一项研究进行推断。他的观点似乎与多重测试有关。

    更新:查看 Andrew Gelman 的博客:不,我没有这么说!(感谢@Scortchi,@whuber)。

  2. 考虑到对 p 值的批评,并且考虑到有很多信息标准,如 AIC、BIC、Mallow'sCp为了评估模型的重要性(因此是变量),我们是否应该完全不使用 p 值进行变量选择,而是使用那些模型选择标准?

  3. 是否有任何使用 p 值进行统计分析的良好实践指导,可以导致更可靠的研究结果?
  4. 正如一些统计学家所倡导的那样,贝叶斯建模框架会是一种更好的追求方式吗?具体来说,贝叶斯方法是否更有可能解决错误发现或操纵数据问题?我在这里也不相信,因为先验在贝叶斯方法中非常主观。是否有任何实用且知名的研究表明贝叶斯方法优于常客的 p 值,或者至少在某些特定情况下?

    更新:我对是否存在贝叶斯方法比常客的 p 值方法更可靠的情况特别感兴趣。“可靠”是指贝叶斯方法不太可能操纵数据以获得所需的结果。有什么建议么?


2015 年 6 月 9 日更新

刚注意到这个消息,觉得放在这里讨论一下就好了。

心理学杂志禁止 P 值

至少在一份期刊上,一项有争议的统计测试终于结束了。本月早些时候,Basic and Applied Social Psychology (BASP) 的编辑宣布,该期刊将不再发表包含 P 值的论文,因为这些统计数据经常被用于支持低质量的研究。

连同最近的一篇论文,“变幻无常的 P 值会产生不可重复的结果”,来自 Nature,关于 P 值。

2016 年 5 月 8 日更新

早在 3 月份,美国统计协会 (ASA) 就发布了关于统计显着性和 p 值的声明,“.... ASA 声明旨在将研究引导到‘后 p<0.05 时代’。”

该声明包含解决 p 值滥用问题的 6 条原则:

  1. P 值可以指示数据与指定统计模型的不兼容程度。
  2. P 值不衡量所研究假设为真的概率,或数据仅由随机机会产生的概率。
  3. 科学结论和业务或政策决策不应仅基于 p 值是否超过特定阈值。
  4. 正确的推断需要完整的报告和透明度。
  5. p 值或统计显着性不能衡量效应的大小或结果的重要性。
  6. 就其本身而言,p 值并不能很好地衡量模型或假设的证据。

详细信息: “ASA 关于 p 值的声明:背景、过程和目的”

4个回答

以下是一些想法:

  1. 正如@whuber 所说,我怀疑 Gelman 是否说过(尽管他可能说过类似的话)。使用 0.05 的 alpha 时,5%的 null 为真的情况会产生显着的结果(I 类错误)。如果我们假设 null 为假的所有研究的真正功效是80%, 只有当空值为真的研究与空值为假的研究的比率为100/118.7584%.
  2. 模型选择标准,例如 AIC,可以看作是选择合适的模型的一种方式p-价值。为了更全面地理解这一点,在这里阅读@Glen_b 的答案可能会有所帮助:R 中的逐步回归 – 临界 p 值此外,如果 AIC 成为发布的要求,没有什么能阻止人们“攻击 AIC”。
  3. 以不使您的模型无效的方式拟合模型的良好指南p-values 将是 Frank Harrell 的书《回归建模策略》
  4. 我并不教条地反对使用贝叶斯方法,但我不相信他们会解决这个问题。例如,您可以继续收集数据,直到可信区间不再包含您想要拒绝的任何值。因此,您有“可信的间隔黑客”。在我看来,问题在于许多从业者本质上对他们使用的统计分析并不感兴趣,所以他们会以一种不假思索和机械的方式使用他们需要的任何方法。有关我在这里的更多观点,阅读我对以下内容的回答可能会有所帮助:效应大小作为显着性检验的假设

对我来说,关于 p-hacking 争议的最有趣的事情之一是 p<=0.05 的整个历史作为统计意义的“千载难逢”标准,正如 Joseph Kaldane 在 JASA 关于法医统计的文章中指出的那样回到 90 年代,完全不依赖于任何统计理论。这是一种惯例,简单的启发式和经验法则,始于 RA Fisher,此后被具体化或奉献为目前的“毫无疑问”的状态。不管贝叶斯是否是贝叶斯,早就该挑战这个度量标准或至少给予它应得的怀疑的时候了。

也就是说,我对 Gelman 观点的解释是,众所周知,同行评审过程奖励积极的统计意义,并通过不发表这些论文来惩罚不显着的结果。这与发布无关紧要的发现是否会对给定领域的思考和理论产生潜在的巨大影响无关。Gelman、Simonshohn 和其他人一再指出,在同行评议和发表的研究中滥用 0.05 显着性水平,举了一些荒谬的例子,但在超自然现象、社会和心理研究中具有统计学意义。最令人震惊的一项是具有统计学意义的发现,即孕妇更有可能穿红色连衣裙。格尔曼坚持认为,在没有对统计结果提出逻辑挑战的情况下,可能毫无意义的解释。在这里,他指的是行业的职业危害,其中包含过度技术性和深奥的论点,这些论点对推动非专业观众的辩论几乎没有作用。

这是加里·金(Gary King)在实际上恳求量化政治科学家(以及所有的量化专家)停止机械的、技术性的报道(例如“这个结果在 p <= 0.05 水平上具有显着意义”)并转向更实质性的解释时强烈提出的观点. 这是他的一篇论文的引述,

(1) 传达对最有意义的数量的数字精确估计,(2) 包括对这些估计的不确定性的合理测量,以及 (3) 几乎不需要专业知识即可理解。以下简单的陈述符合我们的标准:“在其他条件相同的情况下,额外一年的教育将使您的年收入平均增加 1,500 美元,上下浮动约 500 美元。” 任何聪明的高中生都会理解这句话,无论用于生成它的统计模型和强大的计算机多么复杂。

金的观点得到了很好的理解,并指出了辩论需要采取的方向。

充分利用统计分析:改进解释和演示,King、Tomz 和 Wittenberg,2002 年,Am Jour of Poli Sci

在阅读了所有有见地的评论和答案后,这是我对问题 3 的一些想法。

也许在统计分析中避免 p 值黑客攻击的一种实用指南是查看科学(或生物学、临床等)显着/有意义的效应大小。

具体来说,研究应该在数据分析之前甚至在数据收集之前预先定义可以被宣布为有用或有意义的效应量。例如,如果让θ表示药物作用,而不是检验以下假设,

H0:θ=0vs.Ha:θ0,
应该总是测试
H0:θ<δvs.Ha:θδ,
δ是预定义的效应大小以声称有意义的意义。

此外,为避免使用太大的样本量来检测效果,还应考虑所需的样本量。也就是说,我们应该限制用于实验的最大样本量。

总结一下,

  1. 我们需要为有意义的效应大小预先定义一个阈值来声明重要性;
  2. 我们需要为实验中使用的样本量预先定义一个阈值,以量化有意义的效应量的可检测性;

有了以上内容,也许我们可以因此避免巨大样本量所声称的次要“显着”影响。


[2015 年 6 月 9 日更新]

关于问题 3,以下是基于Nature 最近的论文的一些建议:“变化无常的 P 值会产生不可重现的结果”,正如我在问题部分中提到的那样。

  1. 报告效应量估计值及其精确度,即 95% 置信区间,因为那些信息量更大的信息准确地回答了诸如差异有多大,或者关系或关联有多强等问题;
  2. 将效应量估计值和 95% 置信区间置于特定科学研究/问题的背景下,并关注它们与回答这些问题的相关性,并忽略变化无常的 P 值;
  3. 将功效分析替换为“精确度规划”,以确定估计效应量以达到定义的精确度所需的样本量。

[结束更新 2015 年 6 月 9 日]

在当代用法中,p 值是指给定零假设处于或大于某个阈值的数据的累积概率。IEP(D|H0)α. 我觉得H0往往是“没有影响”的假设,通常通过与一些试验中不太可能出现的随机结果的概率进行比较来代表。取决于领域,它从 5% 下降到 0.1% 或更少。然而,H0不必与随机比较。

  1. 这意味着 1/20 的结果可能会在不应该有的时候拒绝 null。如果科学将其结论建立在单个实验上,那么该声明将是站得住脚的。否则,如果实验是可重复的,则意味着 19/20 不会被拒绝。这个故事的寓意是实验应该是可重复的。

  2. 科学是基于“客观性”的传统,因此“客观概率”自然具有吸引力。回想一下,假设实验证明了高度控制,通常采用块设计和随机化来控制研究之外的因素。因此,与随机比较确实有意义,因为除了正在研究的因素之外,所有其他因素都应该受到控制。在被移植到科学领域之前,这些技术在农业和工业中非常成功。

  3. 我不确定缺乏信息是否真的是问题所在。值得注意的是,对于非数学科学领域的许多人来说,统计学只是一个可以打勾的框。

  4. 我建议对结合这两个框架的决策理论进行一般性阅读。它只是归结为使用尽可能多的信息。频率统计假设模型中的参数具有来自固定分布的未知值。贝叶斯假设模型中的参数来自我们所知道的分布。如果有足够的信息来形成先验,并且有足够的信息将其更新为准确的后验,那就太好了。如果没有,那么您最终可能会得到更糟糕的结果。