置信区间的有用性

机器算法验证 置信区间 解释
2022-04-13 02:51:16

使用样本估计参数真实值的置信区间 (CI)。该 CI 的解释是采集了许多(比如 100 个)这样的样本,大约 95% 的时间由这些样本形成的置信区间将包含真实的参数值。可以看到这个定义的一个变体。这个链接有一些答案。

我想知道是否有任何使用这样的定义,因为我必须多次重复采样/实验(比如 100 次)。我决定的解释是,如果抽取/获得一个随机且具有高度代表性的样本,则由它形成的 CI 将代表那些许多样本(比如 100)我不能说真正的价值会在那个 CI 的中间,因为真正的价值是未知的。

但是我们还能说什么呢?我构建的一个 CI 有什么用?

3个回答

置信区间通常比假设检验更有用。假设检验告诉您是否可以排除特定的零假设(通常,0)。另一方面,置信区间划分了一组无限的值,如果它们是你的空值,也会被类似地拒绝。(同样,它给出了一组不会被拒绝的潜在空值。)例如,考虑平均值的 95% 置信区间(.1,.9). (nil) null 的 p 值为<.05,但置信区间也让您知道,如果您的空值是1.0,它也会被拒绝。

置信区间还可以帮助您区分高置信水平和大效应。人们常常对非常显着的效果印象深刻(例如,p<.0001),并得出结论认为它一定非常重要。但是,p 值将效果的大小与效果的清晰度混为一谈。您可能会因为效果大或效果小而获得较低的 p 值,但您有很多数据。如果您正在查看置信区间,这并不模棱两可,例如,(.05,.15)相对(5,15).

此外,置信区间通常比点估计提供更多信息。尽管某些拟合函数返回的点估计通常是最可能的单个值(取决于您的数据和模型),但它实际上不太可能是真实值。正如您所提到的,不能保证真实值位于 95% 置信区间内(例如,真实值没有 95% 的可能性位于 95% 置信区间内1)。也就是说,真实值更有可能位于区间内,而不是点估计是真实值——这应该是显而易见的,因为点估计在区间内。实际上,您可以将点估计视为0%置信区间。

1.为什么 95% 置信区间 (CI) 并不意味着 95% 的机会包含均值?

我认为最好用一个简单的例子来理解。

想象你在一个养羊的农场。农场有很多羊,但你只观察到 5 只羊。在这 5 只羊中,1 只羊是黑色的,4 只羊是白色的。您对农场内黑/白羊的真实比例感兴趣。根据你刚刚看到的 5 只羊样本,你能看出这个比例是什么?

一个问题可能是 - 认为农场中黑/白羊的真实比例相等(50/50)是否合理?要回答这个问题,如果黑羊的真实比例为 0.5,您可以计算看到 4 只白羊和 1 只黑羊的概率(或更极端的差异)。这是一个 p 值

另一个问题是第一个问题的倒数 - 鉴于你刚刚看到的羊样本 - 考虑什么比例不是不合理的?您可以排除农场只有白羊的可能性,因为您已经看到了一只黑羊。我们可以说你忽略它,因为如果所有羊都是白色的,看到 1 只黑羊和 4 只白羊的概率是 0。但是如何走得更远?好吧,你可以计算出看到 1 只黑羊和 4 只白羊的机会大于 5% 的所有比例。根据您的观察,这些将是“合理的比例”。这是一个 95% 的置信区间

因此,您可以将置信区间视为一种哲学工具,在特定假设和特定条件下,它允许您扩展您的归纳推理——从观察到概括。如您所见,根本不需要多次重复任何事情。


免责声明:为简洁起见,上述示例已简化。特别是 - 它没有提到您对绵羊的观察彼此独立的假设。而且在双尾场景中,您还必须考虑 1 白色 / 4 黑色案例。

gung-Reinstate Monica的回答很好。我添加以下内容。实际上,没有真正的模型这样的东西。也没有真正的参数(因为这样的参数只在模型中定义)。我们所做的是使用模型来思考不同的现实,但是我们没有比人工形式模型更好的工具来进行定量陈述。

所以让我们想象一下,我们在现实中观察到的行为就像数据生成过程一样,可能无限重复,由带有参数的某个分布建模μ,比如说,我们在大脑中识别出一些我们感兴趣的真实数量。我们想要使用该模型来量化不确定性,因为我们认为真实过程具有一些随机变化,即我们下次我们做同样的事情时会得到其他数字,其精确解释要么无法观察,要么不感兴趣,要么不值得努力找出。我们想要的是一些迹象表明我们可能与我们的最佳猜测(参数估计)相距多远,因为我们通常从经验中确信,我们所拥有的数据不会准确地告诉我们发生了什么,但他们暗示了它,并有一些可能的变化。置信区间是一种使用模型思维来量化这一点的方法。它问:如果模型是正确的,哪些参数值可以产生我们观察到的数据?

置信区间为我们提供了一组参数值,如果模型为真,这些参数值都与观察到的情况兼容,即,如果置信区间中的任何值为真,则观察到的是现实的,至少是相当典型的事情,如果其他值是正确的,则非常不典型。因此它给出了一组“现实的”参数值。也就是说,正如我之前写的,这些都不是真的,但是只要我们从模型的角度考虑实际情况,就可以认为模型采用这些参数值之一。这可能看起来与现实相去甚远,但实际上很难做得更好。这就是模型的本质。(认知贝叶斯逻辑是另一种选择,但如果你以正确的方式看待它们,它会带来相当相似的问题。)

这种解释事物的谦虚方式的积极方面是它不依赖于模型设置的真正实现。特别是没有必要确实重复实验来赋予结果意义。无论如何,这是一种想象,一种思考情况的工具,其可能性或多或少接近现实。(显然,确实能够重复多次的好处是我们有更好的方法来评估模型世界是否与现实世界合理一致。)

问题:(1)正如我所写,该模型实际上是不正确的。这通常不是问题(实际上是模型的本质),但如果违反它的方式会使根据特定模型的思维具有很强的误导性,那么就会出现问题。一个典型的问题是,如果模型实际上假设它们是独立的,那么数据是否存在强正相关 - 你最终会得到一个太窄的置信区间。

(2) 置信区间在您指定置信水平的意义上过度简化了事情,然后参数要么输入要么输出。但是,分别与边界输入或边界输出的参数数据的兼容性差异并不大。如果你的置信区间是,比如说,[5,10],认为 5.1 是一个完全现实的值是不恰当的,而 4.9 则完全不是。相反,4.9 比 5.1 稍微不切实际,这可以想象为正确,但可能(取决于确切的模型、使用的统计数据等)远不如 7 现实。