是否存在 p 值分布偏向 1 的情况?

机器算法验证 假设检验 p 值
2022-03-27 17:20:20

我听说:

  • 在原假设下,p 值的分布是平的[0,1].

  • 在备择假设下,p 值的分布偏向0.

是否存在 p 值分布偏向1?

2个回答

当原假设为真但未给出所有检验假设时,也可能在实践中产生影响。例如,经典(非 Welch)t 检验假设两组的方差相等。在两个组大小相同的情况下,违规通常不是那么糟糕,否则零分布会出现偏差。

如果较小的组的方差大于较大的组,则零分布偏向 0,如果方差较小,则偏向 1。

一些用于实验的 R 代码:

p.vals <- vector("numeric", 1e5)
for (i in 1:1e5) {
  x <- rnorm(5, 0, 1)
  y <- rnorm(50, 0, 10)
  p.vals[i] <- t.test(x,y, var.equal = TRUE)$p.value
}
hist(p.vals)

P值的分布

所示示例是较大组具有较高方差的情况。请注意,零分布向 1 的偏斜表明测试过于保守,因此会导致更多的 II 类错误,而向 0 的偏斜会导致过多的误报(I 类错误)。

当您的“真实”参数位于零假设区域内但不在边界上时,这可能发生在单向测试中。在 Stata 中考虑以下示例,其中“true”参数(在本例中为均值)为 1:

clear all

program define sim, rclass
    drop _all
    set obs 100
    gen x = rnormal(1,1)
    ttest x = 0.75
    return scalar p1 = r(p_l)
    ttest x = 1
    return scalar p2 = r(p_l)
end

simulate p1=r(p1) p2=r(p2) , reps(20000) : sim
simpplot p1 p2, scheme(s2color) ylabel(,angle(horizontal)) ///
legend(order( 2 "H0: {&mu} {&ge} .75" 3 "H0: {&mu} {&ge} 1"))

在此处输入图像描述

我喜欢这个代表p-价值观。它在 y 轴上显示累积分布函数 (CDF) 的经验估计与理论(连续标准均匀)分布之间的差异。x 轴上是标称p-价值。该图背后的逻辑是p- 模拟研究中的值,其中零假设为真,经验 CDF 是对p-价值。经验 CDF 为每个标称值给出p-value 抽取一个样本的概率估计值,该样本与当前样本的偏差至少与原假设一样多(即有一个名义上的p-值小于或等于当前标称值p-value) 如果原假设为真。所以 y 轴上的负值意味着p-值小于标称p- 值和 y 轴上的正值表示p-值大于标称值p-价值观。因此,蓝点对应于累积密度函数,该函数在对角线下方膨胀,这是对连续标准均匀分布的预期。对应的直方图如下所示:

在此处输入图像描述