重新审视三法则

机器算法验证 置信区间 估计 估计者 经验法则
2022-03-20 13:59:15

法则是一种计算 95% 置信区间的方法,当从一组IID 伯努利试验pn

我对其推导的理解是,它产生的置信区间的那些值的区间,使得,[0,3n]p

Pr(i=1nXi=0)0.05.

也就是说,那些次试验中没有成功的机会大于或等于 5%。pn

然而,在实践中,这种方法不会产生 95% 的时间包含真实参数的置信区间。

例如,假设那么 5% 的时间你会使用三规则并且你的置信区间不会包含,并且 95% 的时间你会使用样本标准差来应用标准 CI 程序,并且这个置信区间将包含大约 95 % 的时间。p=3n+εpp

因此,我们的置信区间包含的概率由下式给出,p

0.050+0.952=0.90250.95.

我误解了三法则吗?我的分析表明,它不能作为产生 95% 置信区间的规则。

3个回答

下图是我如何看待置信区间。它是对“构建置信区间的基本逻辑”问题的答案中的图像的改编,这本身就是对“在二项式 CJ Clopper 和 ES Pearson 的情况下使用 Confidence 或 Fiducial Limits Illustrated Biometrika 第 26 卷,第 4 期(1934 年 12 月),第 404-413 页"

置信区间的直觉

例如,假设那么 5% 的时间你会使用三规则并且你的置信区间不会包含,并且 95% 的时间你会使用样本标准差来应用标准 CI 程序,并且这个置信区间将包含大约 95 % 的时间。p=3n+εpp

  • 单边边界

    根据维基百科推导的三规则的情况更接近右侧的图像,这是单边间隔。边界是您观察不到 5% 的时间零成功的情况。如果真正的值是,那么你会在不到 5% 的时间里犯这个错误。在其他情况下,观察 1、2 等。如果您考虑单边边界,您将始终做出正确的边界。(您认为在 95% 的情况下,您将使用另一个区间并在这些情况下犯 95% 的错误,这是不正确的)3/n3/n+ϵ

  • 两侧边界

    对于右侧的情况,0 次观察的置信区间不是对于两侧的间隔,计算边界,这样你有 5% 的概率(最多)在两端一起结束。在尾部/边相等的情况下,计算边界使得,从中遵循3/n(1p)n0.025

    plog(1p)=log(0.025)/n3.7/n

在上面的示例中,您会看到效果很好。在二项分布的情况下,您还会看到这些边界存在问题。由于离散性,该方法不会为的每个值准确给出 95% 的概率。下面是作为参数值函数的区间覆盖概率图n=1003.7/np

覆盖概率 Clopper-Pearson

为了完整起见,我们还绘制了 BruceET 在他的回答中提到的Jeffreys 的置信区间。它使概率均匀,并使接近的置信区间更小。以参数的真实值为条件,Jeffreys 区间并不总是以至少 95% 的概率覆盖参数,但它也不是为此而设计的。p01

杰弗里斯

p_cover <- function(p, type = 1) {
  n = 100
  k = 0:n
  if (type == 1) { ### Clopper Pearson 
    p_upper = qbeta(1-0.025,k+1,n-k)
    p_lower = qbeta(0.025,k,n-k+1)
  } else { ### Jeffreys'
    p_upper = qbeta(1-0.025,k+0.5,n-k+0.5)
    p_lower = qbeta(0.025,k+0.5,n-k+0.5)
  }
  ks <- which((p <= p_upper)*(p >= p_lower)==1)
  sum(dbinom(ks-1,n,p))
}
p_cover <- Vectorize(p_cover)

ps <- seq(0,1,0.0001)

plot(ps,p_cover(ps), type = "l", ylim = c(0.9,1), xlab = "true value of p",
     ylab = "cover probability",
     main = "probability 95% Clopper Pearson confidence interval covers true value of p",
     cex.main = 1)
lines(c(0,1),c(0.95)*c(1,1), col = 2)


plot(ps,p_cover(ps, type = 2), type = "l", ylim = c(0.9,1), xlab = "true value of p",
     ylab = "cover probability",
     main = "probability 95% Jeffreys' confidence interval covers true value of p",
     cex.main = 1)
lines(c(0,1),c(0.95)*c(1,1), col = 2)

您可以在Javonovic 和 Levy (1997)中找到一些关于“三法则”的有用讨论,包括推导和模拟分析使用现代计算技术,真的没有理由使用这样的“经验法则”,而不是使用尊重感兴趣参数支持的良好置信区间公式。对于二项式比例的推断,Wilson 得分区间给出了一个区间,该区间尊重比例参数的支持并具有良好的大样本属性。当你没有成功时,这个间隔会减少到类似于(但不一样)“三规则”的东西。


未成功的 Wilson 得分区间:表示具有一个自由度的卡方分布的临界点,使用上尾区域在没有成功的情况下,Wilson 得分区间为:χ1,α2α

CIp(1α)=[0,χ1,α2n+χ1,α2].

用于 95% 的置信区间给出:α=0.05

CIp(0.95)=[0,3.841459n+3.841459].

对于较大,这与“三法则”非常相似,但它应该比这个经验法则更准确。至于显示该规则具有所需的覆盖概率,这适用于大的二项式的正态近似。的值,它也给出了一个有效值,其中“三规则”超出了参数的支持范围。(威尔逊分数区间在这些情况下也不是很精彩,但至少尊重了参数的支持!)nnn=1,2

试验中没有成功使用 Jeffreys 置信区间。 这种 CI 风格具有非常好的频率特性,但其动机是使用非信息性先验分布对于,它给出了下面 R 代码中所示的 95% CI,即n=100p.Beta(.5,.5).n=100(0.000,0.025).

qbeta(c(.025,.975), 0+.5, 100+.5)
[1] 4.898073e-06 2.474527e-02

如果你想要一个单边的 CI(基本上是 95% 的上限),那么这个界限就是 0.018。

qbeta(.95, 0+.5, 100+.5)
[1] 0.01897689

注释:(1)我从来都不喜欢“三法则”,现在更不用说使用 R 计算更现实的区间了。似乎三法则是基于一种 CI,已被证明不具有声称的覆盖概率。

(2) 完全没有成功,可能存在围绕真正成功概率是否可能为因此不存在合法的 CI。在大约 35 年有组织地在各种无线电频率上收听来自外星人的信息后,没有任何此类信息得到证实。也许没有外星人的无线电发射器向我们的方向发射。0,

附录重新评论:对于给定的,几乎总是可以挑选任何风格的 CI 的覆盖概率都很差。如果则“95%”的 Jeffreys CI 具有大约 98% 的覆盖概率,如下面的 R 所示。np.n=100,p=0.021,

二项分布的离散性意味着我们的想法是选择一种 CI 风格,它不会与“大多数”感兴趣p.p

我并不是说 Jeffries CI 总是最好的,只是我更喜欢它们而不是“3 规则”。[与此类主题最相关的论文可能是 Brown, Cai & DasGupta (2001), Statistical Science。]

n = 100;  p = 0.021;  x = 0:100
lcl = qbeta(.025, x+.5, n-x+.5)
ucl = qbeta(.975, x+.5, n-x+.5)
cov = (p > lcl)&(p < ucl)
x.cov = x[cov]
sum(dbinom(x.cov,n,p))
[1] 0.9808197