我最初发布以下内容作为对一个问题的部分回答,该问题询问为什么 95% 置信区间并不意味着该区间有 95% 的机会包含真实均值(请参阅:为什么 95% 置信区间 (CI) 不意味着 95% 的机会包含均值?)。一位评论者(感谢约翰)随后要求我将评论作为一个单独的问题发布,所以这里是。
首先,我将假设如果我从标准牌组中随机选择一张扑克牌,我选择了一个俱乐部(不看它)的概率是 13 / 52 = 25%。
其次,已经多次声明 95% 的置信区间应该解释为多次重复实验,并且计算出的区间将包含 95% 的时间的真实平均值——我认为 James Waters 合理地令人信服地证明了这一点上面链接的问题中的模拟。大多数人似乎接受这种对 95% CI 的解释。
现在,进行思想实验。假设我们在大量人口中有一个正态分布的变量——可能是成年男性或女性的身高。我有一个愿意和不知疲倦的助手,我的任务是从总体中执行给定样本大小的多个抽样过程,并计算每个样本的样本均值和 95% 置信区间。我的助手非常热衷于测量人群中所有可能的样本。然后,对于每个样本,我的助手将生成的置信区间记录为绿色(如果 CI 包含真实均值)或红色(如果 CI 不包含真实均值)。不幸的是,我的助手不会向我展示他的实验结果。我需要获取一些关于人口中成年人身高的信息,但我只有时间,资源和耐心做一次实验。我制作了一个随机样本(与我的助手使用的样本量相同)并计算置信区间(使用相同的方程)。
我无法看到我的助手的结果。那么,我选择的随机样本产生绿色 CI(即区间包含真实均值)的概率是多少?
在我看来,这与前面概述的纸牌情况相同,可以解释为使用我的样本计算的区间有 95% 的概率是绿色的(即包含真实均值)。然而,共识似乎是 95% 的置信区间不能解释为区间包含真实均值的概率为 95%。为什么(以及在哪里)我在上述思想实验中的推理失败了?