置信区间(相对于可信区间)实际上表达了什么?

机器算法验证 置信区间 可信区间
2022-03-09 00:01:33

可能重复:
确切地说,置信区间是什么?

是的,以前也有人问过类似的问题,但许多答案似乎相互矛盾,并没有解决我的问题。(或者我对这个问题的看法。)

正如许多地方所提到的,大多数人在呈现区间和概率时可能会觉得直观的是,它表达了真实值在此范围内的可能性有多大。如果被告知出口民意调查的置信区间为 60-70,概率为 0.95,外行人可能(有理由地)预期,当出口民意调查有这个结果时,该区间实际上包含 95% 的时间的真实比例。数学表达:

P(X[60,70])=0.95

问题是,这似乎是对可信区间的正确解释,也是对置信区间的常见误解。来自http://en.wikipedia.org/wiki/Confidence_interval

给定实际获得的数据,置信区间并不预测参数的真实值具有处于置信区间内的特定概率。

那么置信区间是什么意思呢?维基百科说:

具有特定置信水平的置信区间旨在保证,如果统计模型是正确的,然后接管可能已经获得的所有数据,构建区间的过程将提供一个置信区间,其中包括真实的参数值的比例由置信水平设定的时间。

我觉得这个措辞非常令人困惑,但我理解这意味着给定每个 X,至少有 0.95 的概率得到一个 Y 的区间跨越 X:

PX(Y:XIy)0.95

这似乎与 Keith Winstein 在这里给出的置信区间和可信区间的解释一致:置信区间和可信区间有什么区别?(给定一个 cookie 罐,选择一个 cookie 的概率至少为 70 %)

如果这种理解是正确的,那么我看不出为什么置信区间有任何实际意义。每个区间都以难以掌握的方式依赖于其他区间,实际上与采样的实际结果没有任何强关联。

有人可以解释为什么这个概念如此普遍吗?(我意识到使用贝叶斯概率来获得可信区间可能是不可取的,但这并不一定会使 CI 成为一个好的选择。)

3个回答

置信区间和可信区间都代表了我们对给定数据和其他假设的未知参数的了解。当使用非专业解释时,这两个区间非常相似(尽管我可能刚刚让常客和贝叶斯主义者在被我的陈述冒犯方面有共同点)。当进入确切的定义时,棘手的部分就出现了。

贝叶斯主义者可以谈论参数在区间内的概率,但他们必须使用贝叶斯概率的定义,这基本上是概率代表我们对未知参数的了解(看起来很熟悉?)。请注意,我不是贝叶斯主义者,因此他们可能希望给出比我更好的定义。如果您尝试使用频率论者对概率的理解,这将不起作用。

概率的常客定义讨论了如果随机重复一堆结果将出现的频率。因此,一旦随机性结束,我们就不能再谈论概率了,所以我们使用术语置信度来表示事件发生后的不确定性(频率论置信度类似于贝叶斯概率)。在我掷出一枚公平的硬币之前,我有 0.5 的概率得到正面,但是在硬币被翻转并落下或被抓住之后,它要么显示正面要么显示反面,因此概率为 0% 或 100%,这就是为什么常客不喜欢在随机片段结束后说“概率”(贝叶斯主义者没有这个问题,因为概率对他们来说代表我们对某事的了解,而不是实际结果的比例)。在收集用于计算置信区间的样本之前,您有 95% 的机会获得将生成包含真实值的置信区间的样本。但是一旦我们有了一个置信区间,真实值要么在该区间之内,要么不在该区间之内,而且它不会改变。

想象一下,您有一个装有 95 个白球和 5 个黑球的瓮(或相同比例的更高总数)。现在完全随机抽出一个球,握在手中而不看它(如果你担心量子不确定性,你可以让朋友看看它,但不要告诉你它是什么颜色)。现在你手中要么有一个白球,要么有一个黑球,你只是不知道哪个。贝叶斯可以说有 95% 的概率有一个白球,因为他们对概率的定义代表了你在 95% 是白色的情况下随机画了一个球的知识。常客可以说,出于同样的原因,他们有 95% 的信心认为你有一个白球,但他们都不会声称如果你张开手 100 次看球(不画新球),你会看到大约 5 次黑球和大约 95 次白球(如果有95% 的常客概率有一个白球)。现在想象一下,白球代表会导致正确 CI 的样本,黑球代表不会导致正确 CI 的样本。

您可以通过模拟看到这一点,或者使用计算机模拟来自已知分布的数据,或者使用可以计算真实均值的小型有限总体。如果您取一堆样本并计算每个样本的置信区间和可信区间,然后计算真实均值(或其他参数),您将看到大约 95% 的区间包含真实值(如果您使用了合理的假设) . 但是,如果您专注于单个样本的单个区间,它要么包含真实值,要么不包含真实值,并且无论您盯着该给定区间多长时间,真实值都不会跳入或跳出。

直到我在维基百科文章中读到常客置信区间界限是随机变量之前,我才理解置信区间。是的,人们对观察到的数据进行一些计算来构建置信区间,但由于数据是(假设的)随机变量,置信区间也是随机变量。

因此对于l,u作为总体参数的对称 95% 置信区间,θ,比如说,应该是这样的l是一个随机变量,大于θ概率为 2.5 %,类似地u是一个随机变量,小于θ概率为 2.5%。不管出于什么原因,这个公式对我来说更容易理解:有一些未知的人口参数;我从人群中抽取样本;作为我抽奖的一部分,2 个“自由度”用于翻转有偏见的硬币是否lu实际上会绑定未知参数;我计算lu从我的样本中。

口语者:

通过构建 1-alpha 置信区间,以这种方式生成的 1-alpha 置信区间将包括“真实”总体参数。这里总体参数是固定的,置信区间的边界是随机的。

然而,这并没有说明某个置信区间的概率,包括事后的总体参数。事实上,置信区间要么包括总体参数,要么不包括。没有什么是概率性的了。因此,不能说真正的参数以 95% 的概率位于置信区间 {-0.34, 0.2} 内,而是由同一过程(随机抽样等)生成的 95% 的置信区间将包括固定的人口参数。

一个很好的说明置信区间的动画可以在 Yihui Xie 的网站上找到,他是 R 中动画包的作者:

置信区间动画:http ://animation.yihui.name/mathstat:confidence_interval

CRAN 上的动画包:http: //cran.r-project.org/web/packages/animation/index.html

贝叶斯

另一方面,贝叶斯在他们的统计中包含了关于人口参数的不确定性/信息(这就是所谓的“先验”)。因此,可信区间可能更好地被视为具有最高主观信念的区域。“基于先前的信息和我相信 1-alpha % 区间 {-0.34, 0.2} 包含参数的数据”。大多数时候,这种主观相信是基于其他数据。

实际使用

这两个区间都说明了我们估计的准确性。如果您想让数据自己说话,您可以使用具有统一先验的置信区间或贝叶斯可信区间。但是,如果您有强大的先验信息,不仅要包含在讨论部分,还要包含在统计数据中,我会使用可信的间隔。所以对我来说,问题更多是你想要的,而不是解释。