为了评估统计测试或生成频率派置信区间的方法,重复模拟空值为真的数据,然后计算名义 p 值,并生成这些 p 值的直方图是有意义的。对于一个有效的测试,这个分布基本上是平坦的(均匀的)。这里有很好的讨论这一点。在常客或贝叶斯文献中,是否有这种类型的直方图/评估名义 p 值的方法的名称?何时首次提出/实施这种方法?
null 下标称 p 值直方图的名称
这种 P 值均匀分布的想法在统计学教育和实践中是相当新的。我不知道是否有人为已普遍使用的相关直方图起一个名字。下面我只称它们为“Null P-value”直方图。
重要的是要注意,只有当原假设为真、检验统计量是连续的并且满足检验的所有假设时,P 值的这种均匀分布才成立。
通常,检验统计量必须准确且连续,如单样本 t 检验或 ANOVA。涉及离散分布和某些近似值的检验具有用于假设检验的有用 P 值,但 P 值通常不是均匀分布在区间
下面是几个例子。显示的所有测试都是 R 中的标准测试,使用$符号“提取” P 值。直方图的代码仅在第一个示例中显示;除了标题之外,所有示例中的代码都是相同的。
Shapiro-Wilk 正态性检验: 为真,因为数据正常。1 附近的 P 值过多。
set.seed(1212)
pv = replicate(10^5, shapiro.test(rnorm(20))$p.val)
mean(pv < .05)
[1] 0.04924
hist(pv, prob=T, col="skyblue2", main="Shapiro-Wilk Null P-values")
curve(dunif(x), add=T, col="red", n=10001)
单样本 Wilcoxon 检验: 为真,因为抽样总体的中位数为 0。基于离散秩的检验统计量。
set.seed(1212)
pv = replicate(10^5, wilcox.test(rnorm(20), mu=0)$p.val)
mean(pv < .05)
[1] 0.04905
二项式检验:离散检验统计量, 为真,因为由于离散性,在 5% 水平上的检验不可用。
set.seed(1213)
pv = replicate(10^5,
binom.test(rbinom(1,20,.5), 20, p=.5, alt="two")$p.val)
mean(pv < .05)
[1] 0.04169
合并 2 样本 t 检验:由于方差不相等,未满足假设。 true 因为意味着相等。此测试拒绝的次数超过 5%。(注意:在 R 中,默认的两个样本t.test是 Welch 检验;该参数var.eq=T调用一个合并检验。)
set.seed(1213)
pv = replicate(10^5,
t.test(rnorm(20,100,2), rnorm(10,100,20), var.eq=T)$p.val)
mean(pv < .05)
[1] 0.18476
Welch 2 样本 t 检验: P 值在 $(0,1) 上具有均匀分布连续检验统计量。假设满足。是的。从技术上讲,这是一个近似测试,但非常接近准确。
set.seed(1214)
pv = replicate(10^5, t.test(rnorm(20,100,2),
rnorm(10,100,20))$p.val)
mean(pv < .05)
[1] 0.04939
参考: Murcoch DJ、Tsai YL、Adcock J:P 值是随机变量 (2008),美国统计学家, 242-245,有几个直方图与此处显示的类似。本文包含一个早期的重点,如果不是第一个,将 P 值视为随机变量,使用蒙特卡罗模拟来获得它们在各种情况下的分布,以及在原假设下从连续测试统计中获得 P 值的标准均匀分布. 该论文中图 2 的标题是指“零假设下的 p 值直方图”。
同一期刊上的早期论文 Sackrowitz H & Samuel-Cahn E (1999),P 值作为随机变量---预期 P 值,326-333,不包含此类直方图。




