null 下标称 p 值直方图的名称

机器算法验证 置信区间 p 值 验证 直方图 历史
2022-03-27 00:52:10

为了评估统计测试或生成频率派置信区间的方法,重复模拟空值为真的数据,然后计算名义 p 值,并生成这些 p 值的直方图是有意义的。对于一个有效的测试,这个分布基本上是平坦的(均匀的)。这里有很好的讨论这一点在常客或贝叶斯文献中,是否有这种类型的直方图/评估名义 p 值的方法的名称?何时首次提出/实施这种方法?

2个回答

这种 P 值均匀分布的想法在统计学教育和实践中是相当新的。我不知道是否有人为已普遍使用的相关直方图起一个名字。下面我只称它们为“Null P-value”直方图。

重要的是要注意,只有当原假设为真、检验统计量是连续的并且满足检验的所有假设时,P 值的这种均匀分布才成立。

通常,检验统计量必须准确且连续,如单样本 t 检验或 ANOVA。涉及离散分布和某些近似值的检验具有用于假设检验的有用 P 值,但 P 值通常不是均匀分布在区间(0,1).

下面是几个例子。显示的所有测试都是 R 中的标准测试,使用$符号“提取” P 值。直方图的代码仅在第一个示例中显示;除了标题之外,所有示例中的代码都是相同的。

Shapiro-Wilk 正态性检验: H0真,因为数据正常。1 附近的 P 值过多。

set.seed(1212)
pv = replicate(10^5,  shapiro.test(rnorm(20))$p.val)
mean(pv < .05)
[1] 0.04924
hist(pv, prob=T, col="skyblue2", main="Shapiro-Wilk Null P-values")
  curve(dunif(x), add=T, col="red", n=10001)

在此处输入图像描述

单样本 Wilcoxon 检验: H0为真,因为抽样总体的中位数为 0。基于离散秩的检验统计量。

set.seed(1212)
pv = replicate(10^5,  wilcox.test(rnorm(20), mu=0)$p.val)
mean(pv < .05)
[1] 0.04905

在此处输入图像描述

二项式检验:离散检验统计量,H0真,因为p=1/2由于离散性,在 5% 水平上的检验不可用。

set.seed(1213)
pv = replicate(10^5,  
   binom.test(rbinom(1,20,.5), 20, p=.5, alt="two")$p.val)
mean(pv < .05)
[1] 0.04169

在此处输入图像描述

合并 2 样本 t 检验:由于方差不相等,未满足假设。H0 true 因为意味着相等。此测试拒绝的次数超过 5%。(注意:在 R 中,默认的两个样本t.test是 Welch 检验;该参数var.eq=T调用一个合并检验。)

set.seed(1213)
pv = replicate(10^5, 
     t.test(rnorm(20,100,2), rnorm(10,100,20), var.eq=T)$p.val)
mean(pv < .05)
[1] 0.18476

在此处输入图像描述

Welch 2 样本 t 检验: P 值在 $(0,1) 上具有均匀分布连续检验统计量。假设满足。是的。从技术上讲,这是一个近似测试,但非常接近准确。(0,1).H0

set.seed(1214)
pv = replicate(10^5, t.test(rnorm(20,100,2), 
     rnorm(10,100,20))$p.val)   
mean(pv < .05)
[1] 0.04939

在此处输入图像描述

参考: Murcoch DJ、Tsai YL、Adcock J:P 值是随机变量 (2008),美国统计学家, 242-245,有几个直方图与此处显示的类似。本文包含一个早期的重点,如果不是第一个,将 P 值视为随机变量,使用蒙特卡罗模拟来获得它们在各种情况下的分布,以及在原假设下从连续测试统计中获得 P 值的标准均匀分布. 该论文中图 2 的标题是指“零假设下的 p 值直方图”。

同一期刊上的早期论文 Sackrowitz H & Samuel-Cahn E (1999),P 值作为随机变量---预期 P 值,326-333,不包含此类直方图。

...这种类型的直方图/评估标称 p 值的方法有名称吗?

在(简单)零假设下,量的真实分布称为该量的零分布p 值分布的蒙特卡罗模拟直方图没有具体名称。它通常会通过描述来命名:蒙特卡罗模拟 p 值的零分布的直方图