二项式估计值 0 或 1 附近的置信区间

机器算法验证 置信区间 二项分布
2022-01-23 11:19:34

如果您的估计是(或类似地)并且样本量相对较小,例如 ,那么计算二项式实验的置信区间的最佳技术是什么?p=0p=1n=25

2个回答

不要使用正态近似

关于这个问题已经写了很多。一般建议是永远不要使用正态近似(即渐近/Wald 置信区间),因为它具有可怕的覆盖特性。用于说明这一点的 R 代码:

library(binom)
p = seq(0,1,.001)
coverage = binom.coverage(p, 25, method="asymptotic")$coverage
plot(p, coverage, type="l")
binom.confint(0,25)
abline(h=.95, col="red")

二项式比例的渐近置信区间的覆盖概率。

对于较小的成功概率,您可能会要求 95% 的置信区间,但实际上会得到 10% 的置信区间!

建议

那么我们应该使用什么呢?我相信当前的建议是Brown、Cai 和 DasGupta 在Statistical Science 2001 卷中的二项式比例的区间估计一文中列出的建议。16,没有。2,第 101-133 页。作者检查了几种计算置信区间的方法,并得出以下结论。

[W]e 建议对于较小的n使用 Wilson 区间或等尾 Jeffreys 先验区间,对于较大的n建议使用 Agresti 和 Coull 中的区间

威尔逊区间有时也称为分数区间,因为它基于反转分数测试。

计算间隔

要计算这些置信区间,您可以使用此在线计算器或 R 包中的binom.confint()函数binom。例如,对于 25 次试验中的 0 次成功,R 代码将是:

> binom.confint(0, 25, method=c("wilson", "bayes", "agresti-coull"),
  type="central")
         method x  n  mean  lower upper
1 agresti-coull 0 25 0.000 -0.024 0.158
2         bayes 0 25 0.019  0.000 0.073
3        wilson 0 25 0.000  0.000 0.133

bayes是杰弗里斯区间。type="central"需要参数来获得等尾区间。)

请注意,在计算间隔之前,您应该决定要使用三种方法中的哪一种。三个都看,选择最短的自然会给你太小的覆盖概率。

一个快速、近似的答案

最后一点,如果您在n次试验中观察到零成功并且只想要一个非常快速的近似置信区间,您可以使用三规则只需将数字 3 除以n即可。在上面的例子中, n是 25,所以上限是 3/25 = 0.12(下限当然是 0)。

Agresti (2007, pp.9-10) 表明,当比例接近 0 或 1 时,置信区间p±zα/2p(1p)/n表现不佳。相反,使用“具有显着性检验的对偶...... [即] 由π0对于判断为合理的零假设参数,”其中π0是未知参数。通过求解来做到这一点π0在等式中

|pπ0|p(1p)/n=0
. 通过平方两边来做到这一点,产生
(1+z02/n)π02+(2pz02/n)π0+p2=0
使用二次公式求解,这将产生适当的临界 z 值。