计算“实际覆盖概率”与计算“可信区间”是否相同?

机器算法验证 置信区间 术语 覆盖概率
2022-03-22 09:28:22

我正在阅读入门级统计教科书。在二项分布数据成功率的最大似然估计一章中,给出了一个计算置信区间的公式,然后漫不经心地提到

考虑它的实际覆盖概率,即该方法产生捕获真实参数值的区间的概率。这可能比标称值小很多。

并继续提出构建替代“置信区间”的建议,该区间可能包含实际的覆盖概率。

我第一次遇到名义和实际覆盖概率的概念。通过这里的老问题,我想我已经理解了:有两个不同的概念,我们称之为概率,第一个是尚未发生的事件产生给定结果的可能性有多大,第二个是观察者对已经发生的事件结果的猜测是正确的可能性有多大。似乎置信区间只测量第一类概率,而所谓的“可信区间”测量第二类概率。我概括地假设置信区间是计算“名义覆盖概率”的区间,而可信区间是覆盖“实际覆盖概率”的区间。

但也许我误解了这本书(它提供的不同计算方法是针对置信区间和可信区间,还是针对两种不同类型的置信区间,尚不完全清楚),或者我曾经来过的其他来源我目前的理解。特别是我对另一个问题的评论,

常客的置信区间,贝叶斯的可信区间

让我怀疑我的结论,因为这本书在那一章中没有描述贝叶斯方法。

所以请澄清我的理解是否正确,或者我是否在途中犯了逻辑错误。

3个回答

这与贝叶斯可信区间与频率论置信区间无关。95%(比如说)置信区间被定义为的真实值如何,都提供至少95% 的覆盖率。因此,当标称覆盖率为 95% 时,实际覆盖率可能在时为 96.5% ,但对于的任何值都不会小于 95%。问题(即名义覆盖率与实际覆盖率之间的差异)与二项式等离散分布有关。ππ=π1π=π2π

作为说明,考虑二项式试验中 第一列显示的可能观察值。第二个显示了精确的置信上限\ pi_xnπ

xπUPr(X=x|π=0.7)I(πU0.7)00.39303780.000729010.58180340.010206020.72866160.059535130.84683890.185220140.93715010.324135150.99148760.302526161.00000000.1176491
x 95%πU=π:[Pr(X>x|π)=0.95]您将在每种情况下计算。现在假设:第三列显示了在这个假设下第四个显示计算的置信区间覆盖了真实参数值的情况,用标记它们。如果将置信区间覆盖真实值的概率相加,您将得到实际覆盖率对于的不同真实值,实际覆盖范围会有所不同:π=0.7x10.989065π

覆盖范围

只有当真实参数值与可获得的上限一致时,才能实现标称覆盖。

[我刚刚重新阅读了您的问题并注意到作者说实际可能小于名义覆盖概率。所以我认为他们正在谈论一种计算置信区间的近似方法,尽管我上面所说的仍然适用。的平均置信水平,但是 - 对未知参数的值进行平均?]98%

的任何值,实际覆盖率永远不会小于标称覆盖率的某些值等于它——@Unwisdom 的意义,而不是@Stephane 的意义。ππ

‡ 当然,有上下界的区间更常用;但解释起来有点复杂,而且只有一个确切的区间需要考虑,只有一个上限。(参见 Blaker (2000),“离散分布的置信曲线和改进的精确置信区间”,加拿大统计杂志,28、4参考文献。)

通常,当您使用离散分布时,实际覆盖概率永远不会等于名义概率。

置信区间定义为数据的函数。如果您使用二项式分布,则可能的结果只有有限个(),因此可能的置信区间只有有限个。由于参数是连续的,因此很容易看出覆盖概率(它是的函数)不会比大约 95%(或其他任何值)更好。n+1pp

通常,基于 CLT 的方法的覆盖概率低于标称值,但其他方法实际上可能更保守。

我认为差异实际上在于计算置信区间时使用的近似值。例如,如果我们使用相当标准的 CI

estimate±1.96×estimated standard error

我们可以称之为“95% 置信区间”。但是,通常情况下会在这里进行几个近似。如果我们不进行近似,那么我们可以计算实际覆盖率。一个典型的情况是低估了标准误差。然后间隔太窄而无法以 95% 的概率捕获真实值。他们可能仅以 85% 的概率捕获真实值。“实际覆盖率”概率可以使用某种类型的蒙特卡罗模拟来计算(例如,使用选择的真值生成样本数据集,然后为每个计算 95% CI,并发现个实际上包含真值)。1000850