如果您的估计是(或类似地)并且样本量相对较小,例如 ,那么计算二项式实验的置信区间的最佳技术是什么?
二项式估计值 0 或 1 附近的置信区间
不要使用正态近似
关于这个问题已经写了很多。一般建议是永远不要使用正态近似(即渐近/Wald 置信区间),因为它具有可怕的覆盖特性。用于说明这一点的 R 代码:
library(binom)
p = seq(0,1,.001)
coverage = binom.coverage(p, 25, method="asymptotic")$coverage
plot(p, coverage, type="l")
binom.confint(0,25)
abline(h=.95, col="red")
对于较小的成功概率,您可能会要求 95% 的置信区间,但实际上会得到 10% 的置信区间!
建议
那么我们应该使用什么呢?我相信当前的建议是Brown、Cai 和 DasGupta 在Statistical Science 2001 卷中的二项式比例的区间估计一文中列出的建议。16,没有。2,第 101-133 页。作者检查了几种计算置信区间的方法,并得出以下结论。
[W]e 建议对于较小的n使用 Wilson 区间或等尾 Jeffreys 先验区间,对于较大的n建议使用 Agresti 和 Coull 中的区间。
威尔逊区间有时也称为分数区间,因为它基于反转分数测试。
计算间隔
要计算这些置信区间,您可以使用此在线计算器或 R 包中的binom.confint()
函数binom
。例如,对于 25 次试验中的 0 次成功,R 代码将是:
> binom.confint(0, 25, method=c("wilson", "bayes", "agresti-coull"),
type="central")
method x n mean lower upper
1 agresti-coull 0 25 0.000 -0.024 0.158
2 bayes 0 25 0.019 0.000 0.073
3 wilson 0 25 0.000 0.000 0.133
这bayes
是杰弗里斯区间。(type="central"
需要参数来获得等尾区间。)
请注意,在计算间隔之前,您应该决定要使用三种方法中的哪一种。三个都看,选择最短的自然会给你太小的覆盖概率。
一个快速、近似的答案
最后一点,如果您在n次试验中观察到零成功并且只想要一个非常快速的近似置信区间,您可以使用三规则。只需将数字 3 除以n即可。在上面的例子中, n是 25,所以上限是 3/25 = 0.12(下限当然是 0)。
Agresti (2007, pp.9-10) 表明,当比例接近 0 或 1 时,置信区间表现不佳。相反,使用“具有显着性检验的对偶...... [即] 由对于判断为合理的零假设参数,”其中是未知参数。通过求解来做到这一点在等式中