p 值分布的高方差(Taleb 2016 中的一个论点)

机器算法验证 假设检验 统计学意义 p 值
2022-02-03 21:06:00

我试图理解Taleb, 2016, The Meta-Distribution of Standard P-Values 中提出的宏观主张。

在其中,Taleb 对 p 值的不可靠性提出了以下论点(据我了解):

对来自某个分布数据点进行操作的估计过程输出 ap 值。如果我们从这个分布中再画 n 个点并输出另一个 p 值,我们可以对这些 p 值进行平均,从而在极限内获得所谓的“真实 p 值”。nX

该“真实 p 值”显示出具有令人不安的高方差,因此“真实 p 值”的分布+过程将 60% 的时间报告 p 值 <.05。.12

问题:这如何与支持值的传统论点相一致。据我了解,p 值应该告诉您程序将为您提供正确间隔(或其他任何内容)的时间百分比。然而,本文似乎认为这种解释具有误导性,因为如果再次运行该过程,p 值将不一样。p

我错过了重点吗?

2个回答

p 值是一个随机变量。

下(至少对于连续分布的统计量),p 值应该具有均匀分布H0

对于一致的测试,在下,随着样本量向无穷大增加,p 值应在极限内变为 0。同样,随着效应大小的增加,p 值的分布也应该趋向于 0,但它总是会“散开”。H1

“真实”p 值的概念对我来说听起来像是胡说八道。下是什么意思例如,您可能会说您的意思是“在某个给定效应大小和样本大小下 p 值分布的平均值”,但是在什么意义上,您在什么意义上收敛了应该缩小的分布?这不像您可以在保持样本量不变的情况下增加样本量。H0H1

这是一个示例,其中一个样本 t 检验和下的效应量较小。当样本量较小时,p 值几乎是均匀的,并且随着样本量的增加,分布缓慢地向 0 集中。H1

在此处输入图像描述

这正是 p 值应该表现的方式 - 对于假空值,随着样本量的增加,p 值应该在低值处变得更加集中,但是没有任何迹象表明当你犯第二类错误——当 p 值高于你的显着性水平时——应该以某种方式最终“接近”那个显着性水平。

那么,p 值会是 的估计值这不像是收敛到某个东西(除了 0)。完全不清楚为什么人们会期望 p 值在任何地方都有低方差,但是当它接近 0 时,即使功率非常好(例如对于,在 n=1000 情况下的功率接近57%,但仍然完全有可能获得接近 1 的 p 值)α=0.05

考虑在替代方案下使用的任何测试统计量的分布以及在 null 下应用 cdf 作为对分布的转换(这将给出 p 值的分布),这通常是有帮助的具体的替代方案)。当您以这些术语思考时,通常不难看出行为为何如此。

在我看来,问题并不在于 p 值或假设检验存在任何固有问题,而更多的是假设检验是否是解决您的特定问题的好工具,或者其他东西是否更合适在任何特定情况下 - 这不是粗略的争论的情况,而是仔细考虑假设检验所解决的问题类型以及您的情况的特殊需求。不幸的是,很少仔细考虑这些问题——人们经常看到“我对这些数据使用什么测试?”形式的问题。没有考虑感兴趣的问题可能是什么,更不用说某些假设检验是否是解决问题的好方法。

一个困难是假设检验既被广泛误解又被广泛滥用。人们常常认为他们告诉了我们他们没有告诉我们的事情。p 值可能是关于假设检验的最容易被误解的事情。

Glen_b 的答案是(+1;考虑我的补充)。您引用的 Taleb 论文在主题上与心理学和统计学文献中的一系列论文非常相似,这些论文关于您可以通过分析 p 值的分布(作者称之为p 曲线)收集哪些信息;请参阅他们的网站一堆资源,包括此处的 p 曲线分析应用程序)。

作者提出了 p 曲线的两个主要用途:

  1. 您可以通过分析文献的 p 曲线来评估文献的证据价值这是他们第一次宣传使用 p 曲线。本质上,正如 Glen_b 所描述的,当您处理非零效应大小时,您应该看到正偏斜于p < .05 的传统阈值以下的 p 曲线,因为较小的 p 值应该比 p- 更可能当一个效应(或一组效应)是“真实的”时,值更接近p = .05。因此,您可以测试显着正偏斜的 p 曲线作为证据价值的测试。相反,开发人员建议您可以执行负偏斜测试(即,
  2. 您可以使用 p-curve 和已发布的 p-values 计算影响大小的无发表偏倚的元分析估计简明扼要地解释这个有点棘手,相反,我建议您查看他们以效果大小估计为重点的论文(Simonsohn, Nelson, & Simmons, 2014a, 2014b)并自己阅读这些方法。但本质上,作者建议在进行荟萃分析时,可以使用 p 曲线来避开文件抽屉效应的问题。

所以,关于你更广泛的问题:

这如何与支持 p 值的传统论点相协调?

我想说像 Taleb(和其他人)这样的方法已经找到了一种重新利用 p 值的方法,这样我们就可以通过分析p 值来获得有关整个文献的有用信息,而一个 p 值本身可能是它的用处更有限。

参考

Simonsohn, U.、Nelson, LD 和 Simmons, JP (2014a)。P 曲线:文件抽屉的关键。实验心理学杂志:一般143,534-547

Simonsohn, U.、Nelson, LD 和 Simmons, JP (2014b)。P 曲线和效应量:仅使用显着结果来校正发表偏差。心理科学观点9,666-681

Simonsohn, U., Simmons, JP 和 Nelson, LD (2015)。更好的 P 曲线:使 P 曲线分析对错误、欺诈和野心勃勃的 P 黑客攻击更加稳健,对 Ulrich 和 Miller(2015 年)的回复。实验心理学杂志:一般144,1146-1152