为二项式分布的成功概率构建置信区间的更好方法是什么?

机器算法验证 置信区间 二项分布
2022-04-06 20:32:15

对于一个变量BBin(p,n). 我观察m成功。我知道我可以估计p^

p^=mn

我可以通过使用 CLT 的正态近似来近似 CI,我假设

pN(p^,p^(1p^)n)

然而,如果m=0那么我遇到了麻烦(有点),因为 CI 的下限是负数。我记得有一个我可以使用的转换涉及一个可以消除该问题的矩阵。

有问题的转变是什么?

2个回答

二项分布的维基百科页面有几个置信区间的度量。在 R 中,他们和其他人binom.confint在 binom 包中的命令中实现。他们都有成本和收益。您应该进一步研究它们并选择您最喜欢的一个。

既然我已经给出了标准建议……我倾向于相信对二项式 CI 的大量工作清楚地表明,试图得到一个准确的 CI 是没有意义的。虽然它们的覆盖比例通常会发生很大变化,但这仅仅是因为尾部可能会因 p 值偏差很小的分布而发生显着变化,并且实际值的分布是离散的(即,实际的 p 值实际上并非如此)他们报告的不同)。

当 N 很小时,您通常可以选择任何 CI 并将其四舍五入到您的实际分布支持的值,并且您会得到相同的结果。如果您的 N 为 10 且 p = 0.2,那么您将无法复制该实验并获得 p = 0.04588727(威尔逊区间下限),因为该数字不可能出现。这与您想要避免的基于 CLT 的间隔中的 -0.04791801 一样不可能,因为它是负数。只需输入 0 作为下限,输入 0.5 作为上限。您的实验的真实比例不能是实验无法产生的值,95% CI 是关于重复实验时的结果,而不是 mu。如果 n 很大,那么 CLT 无论如何都可以很好地工作。它可能不是最好的,但只是远离平均一点,你'

几十年前在 JAMA 上发表了一篇简洁的小文章,题为“如果没有出错,一切都好吗?” . 作者考虑了二项式参数位于各种“位置”的可能性:并从不同样本大小 N 的 N 个整数实例中推导出零结果的概率。他们首先用手(或计算器,因为这是 1983 年) ),但他们也指出表达式:

1maximum risk=0.051/N
有渐近展开
1+ln(0.05)/N+O(1/N2)

所以上限(也是唯一的置信限0) CL 是ln(0.05)/N或非常接近=3/N. 看看花哨的间隔,看看上面的行,观察值 0 被制成表格。你会发现3/N是精确极限的非常好的近似值。

搜索这篇文章的早期引用实例,我发现我已经发布了这样的答案。