解释 95% 置信区间

机器算法验证 置信区间
2022-02-27 09:59:03

我最初发布以下内容作为对一个问题的部分回答,该问题询问为什么 95% 置信区间并不意味着该区间有 95% 的机会包含真实均值(请参阅:为什么 95% 置信区间 (CI) 不意味着 95% 的机会包含均值?)。一位评论者(感谢约翰)随后要求我将评论作为一个单独的问题发布,所以这里是。

首先,我将假设如果我从标准牌组中随机选择一张扑克牌,我选择了一个俱乐部(不看它)的概率是 13 / 52 = 25%。

其次,已经多次声明 95% 的置信区间应该解释为多次重复实验,并且计算出的区间将包含 95% 的时间的真实平均值——我认为 James Waters 合理地令人信服地证明了这一点上面链接的问题中的模拟。大多数人似乎接受这种对 95% CI 的解释。

现在,进行思想实验。假设我们在大量人口中有一个正态分布的变量——可能是成年男性或女性的身高。我有一个愿意和不知疲倦的助手,我的任务是从总体中执行给定样本大小的多个抽样过程,并计算每个样本的样本均值和 95% 置信区间。我的助手非常热衷于测量人群中所有可能的样本。然后,对于每个样本,我的助手将生成的置信区间记录为绿色(如果 CI 包含真实均值)或红色(如果 CI 不包含真实均值)。不幸的是,我的助手不会向我展示他的实验结果。我需要获取一些关于人口中成年人身高的信息,但我只有时间,资源和耐心做一次实验。我制作了一个随机样本(与我的助手使用的样本量相同)并计算置信区间(使用相同的方程)。

我无法看到我的助手的结果。那么,我选择的随机样本产生绿色 CI(即区间包含真实均值)的概率是多少?

在我看来,这与前面概述的纸牌情况相同,可以解释为使用我的样本计算的区间有 95% 的概率是绿色的(即包含真实均值)。然而,共识似乎是 95% 的置信区间不能解释为区间包含真实均值的概率为 95%。为什么(以及在哪里)我在上述思想实验中的推理失败了?

3个回答

困惑来自这句话:

然而,共识似乎是 95% 的置信区间不能解释为区间包含真实均值的概率为 95%。

这是对真正共识的部分误解。混淆来自于没有具体说明 我们谈论的概率。不是作为一个哲学问题,而是作为“我们在上下文中所说的确切概率”。正如@ratsalad 所说,这一切都与调节有关。

调用你的参数,你的数据,是一个区间,它是的函数:θXIX

  • I是置信区间意味着对于所有可能的包括真实的。固定的概率平均值这就是你在解释中所解释的。P(θIθ)>0.95θXθ
  • I是一个(贝叶斯)可信区间说固定 的概率平均值P(θIX)>0.95θX

两者都是同一事件的概率,但条件不同。

之所以不鼓励对置信区间说“中的概率是 0.95”,是因为这句话隐含了第二点:当我们说“...的概率”时,条件隐含的是之前观察到:“我见过一些,现在是...的概率是多少”正式地是“什么是 ”。θIXθP(θ...X)

中的概率”时,您所体验到的(又是隐含的)暗示强化了这种暗示,是变量而是固定对象,而在常客分析中则相反。θIθI

最后,当您用计算的间隔时,情况会变得更糟。中的概率是 0.95”,那么这完全是错误的。在频率分析中,“ is in ”要么是真要么是假,但不是随机事件,因此它没有概率(除了 0 或 1)。因此,该句子只能被有意义地解释为贝叶斯句子。Iθ[4;5]θ[4;5]

部分差异归结为条件反射,即数据前概率和数据后概率之间的差异。在您进行单个实验之前(在您获得样本之前),您知道 95% CI 有 95% 的机会包含真实均值(这是 95% CI 的定义)。但是,在获得样本后,您处于不同的知识状态:您尚未了解真实均值,但您已经看到了特定的数据样本,这可能会为您提供一些新知识,并可能影响您的概率计算。

类似地,在你抓一张牌之前,你知道这张牌有 25% 的机会是梅花。现在为了使类比起作用,当你抽牌时,你无法知道牌的真正花色(因为同样的,真正的平均值总是对你隐藏)。但是你可能会从抽牌中学到一些新东西,例如西装的颜色。

假设你抽到了这张牌,通过某种机制(这点无关紧要),你得知这张牌来自黑色套装。这会改变你的概率:根据先前的信息,你知道梅花是黑色的,而一半的牌是黑色的花色,所以现在你知道这张牌有 50% 的机会是梅花。另一方面,如果你发现一张红牌,根据你之前的信息,你知道梅花不是红色的,所以你现在知道你的红牌是梅花的可能性为 0%。这两个概率都与抽牌前 25% 的概率一致。

如果你忽略了你之前的信息,或者如果你没有被告知这张卡是黑色的,你仍然有 25% 的机会是正确的。但是,如果您利用先前的信息,您可以做得更好。

有很多真实 CI 的例子,其中查看数据给出的覆盖概率与 CI % 不同。这个来自 David McKay 的“误导性”CI的经典示例(在帖子的中途)可能会有所帮助。Berger给出了一个类似的例子

继续您的身高示例:假设您知道您正在研究的人口来自荷兰,荷兰的平均身高是世界上任何国家中最高的(约 m)。但是,假设您的样品的 95% CI 为 m。您是否仍然认为真实总体均值位于该区间内的概率为 95%?我想说的是,根据先验知识,您的特定样本是随机侥幸并且异常低。换句话说,真实均值位于计算的 CI 中的概率远低于 95%。1.84±0.021.7±0.02

请注意,在您获取样本并计算特定 CI 之前,您获得包含真实平均值的 CI 的机会为 95%。之后,如果您不使用先验信息,并假设所有平均高度的先验概率均等,那么您可以根据需要做出贝叶斯声明,即您的区间包含真实均值的概率为 95%。但是要意识到这样的陈述并不是从 CI 的定义中得出的,并且它关键取决于平均值的特定假设先验。它还取决于您的正态假设,因为大多数常客 CI 不能如此容易地以贝叶斯方式重新解释。

你的问题更多的是哲学而不是统计数据。已经以盒子里的猫的形式进行了令人作呕的讨论。

https://en.wikipedia.org/wiki/Schr%C3%B6dinger%27s_cat

我会补充一点,关于

95% 置信区间应解释为多次重复实验,计算的区间将包含 95% 时间的真实平均值

这是一种解释。您也可以说,在您创建区间之前,该过程有 95% 的机会将导致一个区间捕获真实均值。