澄清解释置信区间?

机器算法验证 置信区间
2022-02-02 10:01:47

我目前对“置信水平的置信区间”概念的理解是,如果我们尝试多次计算置信区间(每次都使用新样本),它将包含正确的参数1时间。1α1α

尽管我意识到这与“真实参数位于此区间内的概率”不同,但我想澄清一些事情。

【重大更新】

在我们计算 95% 的置信区间之前,我们计算的区间有 95% 的概率覆盖真实参数。在我们计算出置信区间并获得特定区间之后,我们就不能再这样说了。我们甚至不能做出某种非频率论论点,即我们 95% 确定真正的参数将位于中;因为如果我们可以的话,它会与下面的反例相矛盾:确切地说,置信区间是什么?[a,b][a,b]

我不想让这成为一场关于概率哲学的辩论。相反,我正在寻找一个精确的数学解释,说明如何以及为什么看到特定区间会改变(或不改变)我们在看到该区间之前的 95% 概率。如果您争辩说“在看到区间之后,概率的概念不再有意义”,那么好吧,让我们来解释它确实有意义的概率。[a,b]

更确切地说:

假设我们对计算机进行编程以计算 95% 的置信区间。计算机进行一些数字运算,计算间隔,并拒绝显示间隔,直到我输入密码。在我输入密码并看到区间之前(但在计算机已经计算出来之后),区间包含真实参数的概率是多少?它是 95%,这部分没有争议:这是我对这个特定问题感兴趣的概率的解释(我意识到我正在压制一些主要的哲学问题,这是故意的)。

但是只要我输入密码并让计算机显示它计算的间隔,概率(间隔包含真实参数)就会改变。任何声称这种概率永远不会改变的说法都与上面的反例相矛盾。在这个反例中,概率可能会从 50% 变为 100%,但是......

  • 是否有任何例子表明概率变为 100% 或 0% 以外的值(编辑:如果是,它们是什么)?

  • 后概率不变的例子(即真实参数位于的概率仍然是 95%)?[a,b][a,b]

  • 看到计算机吐出后,概率一般如何(以及为什么)变化?[a,b]

[编辑]

感谢所有出色的答案和有益的讨论!

4个回答

我认为根本问题是频率统计只能为具有长期频率的事物分配概率。一个参数的真实值是否在一个特定的区间内并没有一个长期的运行频率,因为我们只能进行一次实验,所以你不能给它分配一个频率分布的概率。问题源于概率的定义。如果您将概率的定义更改为贝叶斯定义,那么问题会立即消失,因为您不再需要讨论长期频率。

在这里查看我对相关问题的回答(相当厚脸皮)

频率论者是相信概率代表事件发生的长期频率的人;如果需要,他会发明一个虚构的总体,您的特定情况可以被视为随机样本,这样他就可以有意义地谈论长期频率。如果你问他一个关于特定情况的问题,他不会直接回答,而是对这个(可能是虚构的)人口做出陈述。

在置信区间的情况下,我们通常想问的问题(除非我们在质量控制方面遇到问题)是“给定这个数据样本,返回包含具有概率的参数真实值的最小区间X”。然而,常客不能这样做,因为实验只进行一次,因此没有可用于分配概率的长期运行频率。因此,频率论者必须发明一组实验(您没有执行),您执行的实验可以被认为是随机样本。然后,常客会给你一个关于虚构实验群体的间接答案,而不是你真正想问的关于特定实验的问题的直接答案。

从本质上讲,这是一个语言问题,种群的常客定义根本不允许讨论参数的真实值位于特定区间内的概率。这并不意味着常客统计数据不好或没有用,但了解其局限性很重要。

关于重大更新

我不确定我们是否可以说“在我们计算 95% 的置信区间之前,我们计算的区间有 95% 的概率覆盖真实参数。” 在频率论框架内。这里有一个隐含的推论,即参数的真实值位于通过某种特定方法构建的置信区间的长期频率也是该参数的真实值位于特定样本的置信区间的概率我们将要使用的数据。这是一个完全合理的推断,但它是贝叶斯推断,而不是频率论推断,因为参数的真实值位于我们为特定数据样本构建的置信区间内的概率没有长期运行频率,因为我们只有一个数据样本。

然而,我们可以“提出某种非频率论论点,我们 95% 确定真正的参数将位于 [a,b] 中”,这正是贝叶斯可信区间的含义,对于许多问题,贝叶斯可信区间与常客置信区间完全一致。

“我不想让这成为一场关于概率哲学的辩论”,遗憾的是这是不可避免的,因为你不能将统计的真实值是否在置信区间中分配频率概率的原因是直接后果频率论的概率哲学。频率论者只能将概率分配给具有长期频率的事物,因为频率论者在他们的哲学中是如何定义概率的。这并没有使频率论哲学错误,但重要的是理解概率定义所施加的界限。

“在我输入密码并看到区间之前(但在计算机已经计算出来之后),区间包含真实参数的概率是多少?是95%,这部分没有争议:”这个是不正确的,或者至少在做出这样的陈述时,您已经脱离了频率统计的框架,并且做出了贝叶斯推断,其中涉及陈述真实性的一定程度的合理性,而不是长期频率。然而,正如我之前所说,这是一个完全合理和自然的推论。

输入密码之前或之后没有任何变化,因为这两个事件都不能被赋予频率概率。频率统计可能相当违反直觉,因为我们经常想询问有关特定事件的陈述的合理程度的问题,但这超出了频率统计的范围,这是对频率程序的大多数误解的根源。

重大更新,重大新答案。让我尝试清楚地解决这一点,因为这是问题所在:

“如果你认为“在看到区间之后,概率的概念不再有意义”,那么好吧,让我们来解释它确实有意义的概率。

概率规则不会改变,但你的宇宙模型会改变。您是否愿意使用概率分布来量化您对参数的先验信念?在看到数据后更新概率分布是否合理?如果你这么认为,那么你可以做出像这样的陈述。我的先验分布可以代表我对自然真实状态的不确定性,而不仅仅是通常理解的随机性——也就是说,如果我将先验分布分配给瓮中红球的数量,这并不意味着我认为数量红球是随机的。它是固定的,但我不确定。P(θ[L(X),U(X)]|X=x)

包括我在内的几个人都说过这个,但如果你不愿意将称为随机变量,那么语句不是有意义的。如果我是常客,我将视为一个固定量并且我不能将概率分布归因于它。为什么?因为它是固定的,而我对概率的解释是根据长期频率。瓮中红球的数量永远不会改变。就是 theta 是什么。如果我抽出几个球,那么我就有一个随机样本。我可以问如果我拿一堆随机样本会发生什么——也就是说,我可以谈论θP(θ[L(X),U(X)]|X=x)θθθP(θ[L(X),U(X)])因为间隔取决于样本,这是(等待它!)随机的。

但你不希望那样。你想要 - 我用观察到的(现在是固定的)样本构建的这个区间包含参数的概率是多少。然而,一旦你以为条件,那么对于我,一个常客,就没有随机的东西了,语句不会以任何有意义的方式都没有意义。P(θ[L(X),U(X)]|X=x)X=xP(θ[L(X),U(X)]|X=x)

进行陈述的唯一原则方法(IMO)是用(先验)概率分布量化我们对参数的不确定性,并且通过贝叶斯定理用新信息更新该分布。我见过的所有其他方法都是对贝叶斯的平淡近似。从常客的角度来看,你当然不能这样做。P(θ[L(X),U(X)]|X=x)

这并不是说您不能从贝叶斯的角度评估传统的常客程序(例如,置信区间通常只是统一先验下的可信区间),或者从常客的角度评估贝叶斯估计量/可信区间没有价值(我认为可以)。这并不是说古典/频率统计是无用的,因为它不是。它就是这样,我们不应该试图让它变得更多。

你认为给一个参数一个先验分布来代表你对宇宙的信念是否合理?从您的评论中听起来像是您所做的;以我的经验,大多数人都会同意(这是我在对@G. Jay Kerns 的回答的评论中开了个半开玩笑的小玩笑)。进行陈述频率论者的方法根本没有。P(θ[L(X),U(X)]|X=x)

好的,现在你在说话!我投票删除了我之前的答案,因为这个重大更新的问题没有意义。

在这个新的更新问题中,使用计算机计算 95% 置信区间,根据正统的常客解释,以下是您问题的答案:

  1. 不。
  2. 不。
  3. 一旦观察到间隔,它就不再是随机的,也不会改变。(也许间隔是。)但是也没有改变,也从未改变。(也许它是。)概率从 95% 变为 0%,因为计算机计算的 95% 的区间涵盖 7,但 100% 的区间不涵盖 7。[1,3]θθ=7[1,3]

(顺便说一句,在现实世界中,实验者永远不知道,这意味着实验者永远不知道覆盖的真实概率是零还是一。(S)他只能说它必须是一个或另一个。)那,再加上实验者可以说 95% 的计算机间隔覆盖,但我们已经知道了。θ=7[1,3]θθ

您的问题的精神不断暗示观察者的知识,以及这与所在的位置有何关系。这(大概)就是为什么你在谈论密码,关于计算机在你还没有看到它的情况下计算间隔等等我在您对答案的评论中看到,被迫承诺 0 或 1 似乎令人不满意/不合时宜,毕竟,我们为什么不能相信它是 87% 或,甚至是 99%? ? 但这正是频率论框架的力量——同时也是阿喀琉斯之踵——观察者的主观知识/信念是无关紧要的。重要的是长期的相对频率。不多也不少。θ15/16

作为最后的顺便说一句:如果你改变你对概率的解释(你故意选择不为这个问题做),那么新的答案是:

  1. 是的。
  2. 是的。
  3. 概率的变化是因为概率=主观知识,或者相信程度,并且观察者的知识发生了变化。我们用先验/后验分布来表示知识,并且随着新信息的出现,前者会变成后者(通过贝叶斯规则)。

(但为了全面披露,您描述的设置与主观解释不太匹配。例如,我们通常在打开计算机之前有 95% 的先验可信区间,然后我们启动它并使用计算机给出我们使用 95% 的后置可信区间,通常比前一个要窄得多。)

我会投入两分钱(也许会重新消化以前的一些答案)。对于常客来说,置信区间本身本质上是一个二维随机变量:如果您要重做实验无数次,那么您估计的置信区间(即:每次根据新发现的数据计算)每次都会不同. 因此,区间的两个边界是随机变量。

因此,95% 的置信区间仅意味着保证(假设您导致该置信区间的所有假设都是正确的)这组随机变量将在 95% 的情况下包含真实值(一个非常频繁的表达式)。

您可以从标准正态分布轻松计算 100 次抽签的平均值的置信区间。然后,如果您从该标准正态分布中绘制 10000 乘以 100 的值,并且每次计算均值的置信区间,您确实会看到 0 大约存在 9500 次。

创建了一次置信区间(根据您的实际数据)这一事实确实将真实值在区间中的概率降低到 0 或 1,但它不会将置信区间的概率更改为包含真实值的随机变量。

因此,底线:包含真值(95%)的任何(即平均)95% 置信区间的概率不会改变,包含真值的特定区间(CI 或其他)的概率也不会改变(0 或 1)。计算机知道但你不知道的间隔的概率实际上是 0 或 1(因为它是一个特定的间隔),但是因为你不知道它(并且,以常客的方式,无法重新计算这个相同的间隔从相同的数据再次无限多次),你所要做的就是任何间隔的概率。