是什么导致 p < .05 时公布的 p 值分布不连续?

机器算法验证 统计学意义 p 值 荟萃分析
2022-02-10 07:33:00

在最近的一篇论文中,Masicampo 和 Lalande (ML) 收集了许多不同研究中发表的大量 p 值。他们在 5% 的典型临界水平上观察到 p 值的直方图中出现了奇怪的跳跃。

Wasserman 教授的博客上有一个关于这种 ML 现象的很好的讨论:

http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/

在他的博客上,您会找到直方图:

已发布 p 值的直方图

由于 5% 的水平是一种惯例,而不是自然规律,是什么导致了已发布的 p 值的经验分布的这种行为?

选择偏差,系统地“调整” p 值刚好高于典型临界水平,还是什么?

3个回答

(1) 正如@PeterFlom 已经提到的,一种解释可能与“文件抽屉”问题有关。(2) @Zen 还提到了作者操纵数据或模型的情况(例如数据挖掘)。(3) 但是,我们不会在纯粹随机的基础上检验假设。也就是说,假设不是偶然选择的,但我们有(或多或少强有力的)理论假设。

您也可能对 Gerber 和 Malhotra 的作品感兴趣,他们最近在该领域应用所谓的“卡尺测试”进行了研究:

您也可能对 Andreas Diekmann 编辑的本期特刊感兴趣:

迄今为止缺少的一个论点是数据分析的灵活性,即研究人员的自由度。在每次分析中,都需要做出许多决定,在哪里设置异常值标准,如何转换数据,以及......

Simmons、Nelson 和 Simonsohn 最近在一篇有影响力的文章中提出了这一点:

Simmons, JP, Nelson, LD 和 Simonsohn, U. (2011)。假阳性心理学:数据收集和分析中未公开的灵活性允许呈现任何重要的东西。 心理科学,22(11),1359 - 1366。doi:10.1177/0956797611417632

(请注意,这与 Simonsohn 负责最近在社会心理学中发现的一些数据欺诈案例,例如,采访博客文章

我认为这是已经说过的所有内容的结合。这是非常有趣的数据,我以前从未想过要查看这样的 p 值分布。如果原假设为真,则 p 值将是一致的。但是,当然,由于许多原因,我们不会看到已发表的结果的一致性。

  1. 我们进行这项研究是因为我们预计原假设是错误的。所以我们应该经常得到显着的结果。

  2. 如果零假设只有一半的时间是错误的,我们将不会得到 p 值的均匀分布。

  3. 文件抽屉问题:如前所述,当 p 值不显着(例如低于 0.05)时,我们会害怕提交论文。

  4. 即使我们选择提交,出版商也会因为不显着的结果而拒绝该论文。

  5. 当结果处于临界点时,我们会做一些事情(也许不是出于恶意)以获得意义。(a) 当 p 值为 0.053 时向下舍入到 0.05,(b) 找到我们认为可能是异常值的观测值,并且在移除它们后 p 值下降到 0.05 以下。

我希望这以一种可以合理理解的方式总结了已经说过的所有内容。

我认为有趣的是我们看到的 p 值介于 0.05 和 0.1 之间。如果发布规则要拒绝 p 值高于 0.05 的任何内容,则右尾将在 0.05 处截断。它实际上是在 0.10 处截止吗?如果是这样,也许一些作者和一些期刊会接受 0.10 的显着性水平,但不会更高。

由于许多论文包含多个 p 值(是否根据多重性进行了调整)并且该论文被接受是因为关键测试是显着的,我们可能会看到列表中包含不显着的 p 值。这就提出了一个问题“论文中报告的所有 p 值都包含在直方图中吗?”

另一个观察结果是,随着 p 值远低于 0.05,发表论文的频率出现显着上升趋势。也许这表明作者过度解释了 p 值,认为 p<0.0001 更值得发表。我认为作者忽略或没有意识到 p 值取决于样本大小和效应大小的大小一样多。