置信区间对精度有什么影响(如果有的话)?

机器算法验证 贝叶斯 置信区间 常客 精确
2022-01-28 00:17:55

Morey 等人 (2015) 认为置信区间具有误导性,并且存在与理解它们相关的多种偏差。其中,他们将精确谬误描述如下:

精度谬误
置信区间的宽度表示我们对参数的了解的精度。窄的置信区间显示精确的知识,而宽的置信误差显示不精确的知识。

估计的精度和置信区间的大小之间没有必然的联系。看到这一点的一种方法是想象两名研究人员——一名高级研究员和一名博士生——正在分析来自一项实验作为对博士生有益的练习,高级研究员决定将参与者随机分成两组,人,这样他们每个人就可以分别分析一半的数据集。在随后的会议中,两人相互分享他们的学生平均值的置信区间。博士生的 CI 为,高级研究员的 CI 为5025t95%52±295%53±4

高级研究人员指出,他们的结果大体上是一致的,并且他们可以使用他们各自的两个点估计的等权重平均值作为真实平均值的总体估计。52.5

然而,博士生认为他们的两种方法不应该均匀加权:她指出她的 CI 是一半宽,并认为她的估计更精确,因此应该更重。她的顾问指出,这不可能是正确的,因为不均匀加权这两种方法的估计值将不同于分析完整数据集的估计值,后者必须是博士生的错误是假设 CI 直接表示数据后的精度。52.5

上面的例子似乎具有误导性。如果我们将一个样本随机分成两半,分成两个样本,那么我们会期望样本均值和标准误差都很接近。在这种情况下,使用加权平均值(例如通过逆误差加权)和使用简单算术平均值之间应该没有任何区别。但是,如果估计值不同并且其中一个样本的误差明显更大,这可能表明该样本存在“问题”。

显然,在上面的例子中,样本大小是相同的,因此通过取平均值来“连接”数据与取整个样本的平均值相同。问题是整个示例遵循定义不明确的逻辑,即先将样本分成几部分,然后再重新组合以进行最终估计。

该示例可以重新措辞以得出完全相反的结论:

研究人员和学生决定将他们的数据集分成两半并独立分析它们。之后,他们比较了他们的估计,发现他们计算的样本意味着他们有很大的不同,而且学生估计的标准误差要大得多。学生担心这可能表明他的估计精度存在问题,但研究人员暗示置信区间和精度之间没有联系,因此两个估计值同样值得信赖,他们可以发布其中任何一个,随机选择,作为他们的最终估计。

更正式地说,“标准”置信区间,如学生的,是基于错误的t

x¯±c×SE(x)

其中是某个常数。在这种情况下,它们与精度直接相关,不是吗..?c

所以我的问题是:
精确谬误真的是谬误吗?置信区间对精度有什么影响?


Morey, R., Hoekstra, R., Rouder, J., Lee, M., & Wagenmakers, E.-J. (2015 年)。对置信区间置信的谬误。心理公报与评论,1-21。https://learnbayes.org/papers/confidenceIntervalsFallacy/

4个回答

在论文中,我们实际上以多种方式证明了精确谬误。你要问的那个——论文中的第一个——这个例子是为了证明一个简单的“CI = 精度”是错误的。这并不是说任何称职的频率论者、贝叶斯论者或可能性论者都会对此感到困惑。

这是查看发生了什么的另一种方法:如果我们只是被告知 CI,我们仍然无法将样本中的信息组合在一起;我们需要知道,然后我们可以将 CI 分解为,从而正确组合这两个样本。我们必须这样做的原因是 CI 中的信息与讨厌的参数相比是边际的。我们必须考虑到两个样本都包含有关相同有害参数的信息。这涉及计算两个值,将它们组合起来以获得的总体估计,然后计算一个新的 CI。Nx¯s2s2σ2

至于精确谬误的其他证明,请参阅

  • Welch (1939) 部分(潜艇)中的多个 CI,其中之一包括上面@dsaxton 提到的“琐碎” CI。在此示例中,最佳 CI 不跟踪可能性的宽度,并且还有其他几个 CI 示例也不跟踪。
  • CI --- 即使是“好”的 CI 也可以为空,“错误”表示无限精度

这个难题的答案是“精确度”,至少在 CI 倡导者认为的方式(对估计值与参数“接近”程度的后实验评估)根本不是置信区间通常具有的特征,他们不是故意的。特定的置信程序可能会……也可能不会。

另请参阅此处的讨论:http: //andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591

首先,让我们将自己限制在仅产生具有严格正数、有限宽度的间隔的 CI 程序(以避免病理情况)。

在这种情况下,可以从理论上证明精度和 CI 宽度之间的关系。估计平均值(如果存在)。如果您的均值 CI 非常窄,那么您有两种解释:要么您运气不好,并且您的样本太紧(发生这种情况的先验概率为 5%),或者您的区间覆盖了真实均值(95%先验机会)。当然,观察到的 CI 可以是这两个中的任何一个,但是,我们设置了我们的计算,以便后者更有可能发生(即先验概率为 95%)......因此,我们有一个高度自信我们的区间覆盖了平均值,因为我们是概率性地设置的,所以情况就是这样。因此,95% CI 不是概率区间(如贝叶斯可信区间),而更像是“值得信赖的顾问”……从统计上看,95% 的时间都是正确的,所以我们相信他们的答案,即使任何特定的答案都可能是错误的。

在 95% 的情况下,它确实涵盖了实际参数,然后宽度会告诉你一些关于给定数据的合理值的范围(即,你可以如何约束真实值),因此它就像一个精度度量. 在 5% 的情况下,CI 具有误导性(因为样本具有误导性)。

那么,95% 的 CI 宽度是否表示精度......我想说它有 95% 的机会(假设你的 CI 宽度是正有限的);-)

什么是明智的 CI?

为了回应原作者的帖子,我修改了我的回复(a)考虑到“拆分样本”示例有一个非常具体的目的,以及(b)根据评论者的要求提供更多背景信息:

在一个理想的(频繁的)世界中,所有的抽样分布都会承认一个关键的统计数据,我们可以用它来获得准确的置信区间。关键统计数据有什么了不起的?它们的分布可以在不知道被估计参数的实际值的情况下推导出来!在这些很好的情况下,我们的样本统计量相对于该参数的真实参数(尽管它可能不是高斯分布)具有精确分布。

更简洁地说:我们知道误差分布(或其某种转换)。

正是某些估计量的这种品质使我们能够形成合理的置信区间。这些区间不仅满足它们的定义……它们是通过从估计误差的实际分布中得出的。

高斯分布和相关的 Z 统计量是使用关键量来开发均值的精确 CI 的典型示例。还有更多深奥的例子,但这通常是激发“大样本理论”的原因,这基本上是将高斯 CI 背后的理论应用于不承认真正关键数量的分布的尝试。在这些情况下,您将阅读关于近似关键或渐近关键(在样本量中)的数量或“近似”置信区间……这些基于似然理论——特别是,许多 MLE 的误差分布的事实接近正态分布。

生成合理 CI 的另一种方法是“反转”假设检验。这个想法是,对于给定的 I 类错误率,“好的”测试(例如,UMP)将导致好的(阅读:窄)CI。这些并不倾向于给出准确的覆盖率,但确实提供了下限覆盖率(注意:X%-CI 的实际定义仅表示它必须至少在X% 的时间内覆盖真实参数)。

假设检验的使用并不直接需要一个关键的数量或误差分布——它的敏感性来源于基础检验的敏感性。例如,如果我们有一个测试,其拒绝区域的长度为 0 5% 的时间和无限的长度 95% 的时间,我们将回到我们使用 CI 的位置——但很明显,这个测试不是以数据为条件,因此不会提供有关正在测试的基础参数的任何信息。

这个更广泛的想法 - 精确度的估计应该以数据为条件,可以追溯到 Fischer 和辅助统计的想法。您可以确定,如果您的测试或 CI 过程的结果不受数据的限制(即,它的条件行为与其无条件行为相同),那么您手头的方法是有问题的。

我认为精确谬误是一个真正的谬误,但不一定是我们应该关心的。证明它是一个谬误甚至不是那么难。举一个像下面这样的极端例子:我们有一个来自正态并希望在上构建一个置信区间,但是在使用实际数据时,我们将置信区间设为,基于有偏硬币的翻转。通过使用正确的偏差,我们可以获得任何我们喜欢的置信水平,但显然我们的区间“估计”根本没有精度,即使我们最终得到一个宽度为零的区间。{x1,x2,,xn}(μ,σ2)μ(,){0}

我认为我们不应该关心这个明显的谬误的原因是,虽然置信区间的宽度和精度之间确实没有必然的联系,但标准误差和精度之间几乎存在普遍的联系,并且在大多数情况下,置信区间的宽度与标准误差成正比。

我也不相信作者的例子是一个很好的例子。每当我们进行数据分析时,我们只能估计精度,所以两个人当然会得出不同的结论。但是如果我们有一些特权知识,比如知道两个样本来自同一个分布,那么我们显然不应该忽略它。显然,我们应该汇集数据并使用的结果估计作为我们的最佳猜测。在我看来,这个例子就像上面的例子一样,如果我们让自己停止思考,我们只会将置信区间宽度等同于精度。σ

我认为“置信区间”和“精度”之间的明显区别(参见@dsaxton 的回答)很重要,因为这种区别指出了这两个术语的常见用法中的问题。

引用维基百科

测量系统的精度与再现性和重复性有关,是在不变的条件下重复测量显示相同结果的程度。

因此有人可能会争辩说,常客置信区间确实代表了一种测量方案的精度。如果重复相同的方案,则为每次重复计算的 95% CI 将在 95% 的重复中包含参数的一个真实值。

然而,这并不是许多人想要从实际的精度测量中得到的。他们想知道测量值与真实的接近程度。频率论置信区间并不严格提供这种精确度测量。贝叶斯可信区域可以。

一些困惑在于,在实际示例中,频率论置信区间和贝叶斯可信区域“或多或少会重叠”从正态分布中抽样,如对 OP 的一些评论,就是这样一个例子。在实践中,@Bey 所考虑的一些更广泛类型的分析也可能是这种情况,基于在极限内具有正态分布的过程中标准误差的近似值。

如果您知道自己处于这种情况,那么将特定的 95% CI 从测量方案的单个实施中解释为具有 95% 的概率包含真实值可能没有实际危险。然而,对置信区间的解释并非来自频率统计,其真实值要么在该特定区间内,要么不在该特定区间内。

如果置信区间和可信区域显着不同,那么对频率派置信区间的贝叶斯式解释可能会产生误导或错误,正如上面链接的论文和其中引用的早期文献所证明的那样。是的,“常识”可能有助于避免这种误解,但根据我的经验,“常识”并不常见。

其他 CrossValidated 页面包含更多关于置信区间以及置信区间和可信区域之间差异的信息。这些特定页面的链接也非常有用。