纽约时报的这篇文章“ The Odds, Continuously Updated”恰好引起了我的注意。简而言之,它指出
[贝叶斯统计] 被证明在解决复杂问题方面特别有用,包括海岸警卫队在 2013 年用于寻找失踪渔民约翰·奥尔德里奇的搜索(尽管到目前为止,在寻找马来西亚航空公司 370 航班时还没有)。 ......,从物理学到癌症研究,从生态学到心理学,贝叶斯统计数据正在波及所有领域......
在文章中,也有一些关于常客的 p 值的批评,例如:
如果 p 值小于 5%,则结果通常被认为具有“统计学意义”。但哥伦比亚大学统计学教授安德鲁·格尔曼说,这种传统存在危险。即使科学家们总是正确地进行计算——而他们没有,他认为——接受所有 p 值为 5% 的东西意味着 20 个“具有统计意义”的结果中就有一个只是随机噪声。
除了上述之外,也许最著名的批评 p 值的论文是来自 Nature 的 Regina Nuzzo 的“科学方法:统计错误”,其中讨论了 p 值方法提出的许多科学问题,例如可重复性问题, p值黑客攻击等
P 值是统计有效性的“黄金标准”,并不像许多科学家认为的那样可靠。......也许最严重的谬误是那种自欺欺人,宾夕法尼亚大学的心理学家 Uri Simonsohn 和他的同事们已经普及了 P-hacking 这个术语。它也被称为数据挖掘、窥探、钓鱼、重要性追逐和双重浸入。“P-hacking”,Simonsohn 说,“正在尝试多种事情,直到你得到想要的结果”——甚至是无意识的。......“这一发现似乎是通过 p-hacking 获得的,作者放弃了其中一个条件,使整体 p-value 小于 0.05”,以及“她是 p-hacker,她总是在收集数据时监控数据。”
另一件事是从这里开始的一个有趣的情节,关于情节的评论:
无论您的影响多么小,您始终可以努力收集数据以通过 p < .05 的阈值。只要您研究的效果不存在,p 值就可以衡量您在收集数据方面付出了多少努力。
综上所述,我的问题是:
Andrew Gelman 在第二块引用中的论点究竟是什么意思?为什么他将 5% 的 p 值解释为“每 20 个具有统计学意义的结果中就有一个注意到但随机噪声”?我不相信,因为对我来说 p 值用于对一项研究进行推断。他的观点似乎与多重测试有关。
更新:查看 Andrew Gelman 的博客:不,我没有这么说!(感谢@Scortchi,@whuber)。
考虑到对 p 值的批评,并且考虑到有很多信息标准,如 AIC、BIC、Mallow's为了评估模型的重要性(因此是变量),我们是否应该完全不使用 p 值进行变量选择,而是使用那些模型选择标准?
- 是否有任何使用 p 值进行统计分析的良好实践指导,可以导致更可靠的研究结果?
正如一些统计学家所倡导的那样,贝叶斯建模框架会是一种更好的追求方式吗?具体来说,贝叶斯方法是否更有可能解决错误发现或操纵数据问题?我在这里也不相信,因为先验在贝叶斯方法中非常主观。是否有任何实用且知名的研究表明贝叶斯方法优于常客的 p 值,或者至少在某些特定情况下?
更新:我对是否存在贝叶斯方法比常客的 p 值方法更可靠的情况特别感兴趣。“可靠”是指贝叶斯方法不太可能操纵数据以获得所需的结果。有什么建议么?
2015 年 6 月 9 日更新
刚注意到这个消息,觉得放在这里讨论一下就好了。
至少在一份期刊上,一项有争议的统计测试终于结束了。本月早些时候,Basic and Applied Social Psychology (BASP) 的编辑宣布,该期刊将不再发表包含 P 值的论文,因为这些统计数据经常被用于支持低质量的研究。
连同最近的一篇论文,“变幻无常的 P 值会产生不可重复的结果”,来自 Nature,关于 P 值。
2016 年 5 月 8 日更新
早在 3 月份,美国统计协会 (ASA) 就发布了关于统计显着性和 p 值的声明,“.... ASA 声明旨在将研究引导到‘后 p<0.05 时代’。”
该声明包含解决 p 值滥用问题的 6 条原则:
- P 值可以指示数据与指定统计模型的不兼容程度。
- P 值不衡量所研究假设为真的概率,或数据仅由随机机会产生的概率。
- 科学结论和业务或政策决策不应仅基于 p 值是否超过特定阈值。
- 正确的推断需要完整的报告和透明度。
- p 值或统计显着性不能衡量效应的大小或结果的重要性。
- 就其本身而言,p 值并不能很好地衡量模型或假设的证据。
详细信息: “ASA 关于 p 值的声明:背景、过程和目的”。