狭窄的置信区间——更高的准确性?

机器算法验证 置信区间
2022-02-16 09:16:12

我有两个关于置信区间的问题:

显然,狭窄的置信区间意味着在该区间内获得观察的机会较小,因此,我们的准确性更高。

此外,95% 的置信区间比 99% 的置信区间更窄,后者更宽。

99% 置信区间比 95% 更准确。

有人可以给出一个简单的解释来帮助我理解准确性和狭隘性之间的这种区别吗?

4个回答

95% 与你在实验中覆盖真实效果的信心程度完全没有关系。也许认识到“使用 95% 覆盖范围计算的区间”可能是一个更准确的名称。您可以做出选择来决定区间是否包含真值;如果你在 95% 的时间里始终如一地这样做,那你就是对的。但是如果没有更多信息,您真的不知道您的特定实验的可能性有多大。

Q1: 您的第一个查询混淆了两件事并误用了一个术语。难怪你会感到困惑。更窄的置信区间可能更精确,但是当以相同的方式计算时,例如 95% 方法,它们都具有相同的准确度。它们以相同比例捕获真实值。

此外,仅仅因为它很窄并不意味着您不太可能遇到落在该狭窄置信区间内的样本。可以通过以下三种方式之一来实现窄置信区间。数据的实验方法或性质可能只有非常低的方差。无论样本大小如何,海平面自来水沸点附近的置信区间都非常小。人们平均体重的置信区间可能相当大,因为人们的变化很大,但可以通过获取更多观察值来缩小置信区间。在这种情况下,当您通过收集更多样本并缩小置信区间来确定您认为真实值在哪里时,那么在该置信区间内遇到一个人的概率确实会下降。(当您增加样本量时,它无论如何都会下降,但您可能不会费心在沸水箱中收集大样本)。最后,它可能很窄,因为您的样本不具代表性。在这种情况下,您实际上更有可能拥有不包含真实值的 5% 区间之一。关于 CI 宽度,这有点自相矛盾,您应该通过了解文献以及该数据通常的可变性来检查一些东西。在这种情况下,您实际上更有可能拥有不包含真实值的 5% 区间之一。关于 CI 宽度,这有点自相矛盾,您应该通过了解文献以及该数据通常的可变性来检查一些东西。在这种情况下,您实际上更有可能拥有不包含真实值的 5% 区间之一。关于 CI 宽度,这有点自相矛盾,您应该通过了解文献以及该数据通常的可变性来检查一些东西。

进一步考虑置信区间是关于试图估计总体的真实平均值。如果你知道那个点,那么你会更加精确(和准确),甚至没有一个估计范围。但是,您遇到具有完全相同值的观测值的概率将远低于在任何基于特定样本的 CI 中找到观测值的概率。

Q2:99% 的置信区间大于 95%。因此,它更有可能包含真实值。请参阅上面精确和准确之间的区别,您将两者混为一谈。如果我使置信区间更窄,变异性更低,样本量更大,它会变得更精确,可能的值覆盖更小的范围。如果我通过使用 99% 的计算来增加覆盖率,它会变得更准确,真实值更有可能在该范围内。

对于给定的数据集,增加置信区间的置信水平只会导致更大的区间(或至少不会更小)。这与准确性或精确度无关,而是关于您愿意为错过真实价值承担多少风险。

如果您要比较来自多个数据集的同一种参数的置信区间并且一个小于另一个,您可以说较小的一个更精确在这种情况下,我更喜欢谈论精度而不是准确性(请参阅这篇相关的维基百科文章)。

首先,给定置信百分比(例如 95%)的 CI 意味着,出于所有实际目的(尽管从技术上讲它是不正确的),您确信真实值在区间内。

如果这个间隔是“窄的”(注意,这只能以相对的方式看待,所以,为了与下面的比较,说它是 1 个单位宽),这意味着没有太多的空间可以发挥:取哪个值您选择的那个区间将接近真实值(因为区间很窄),并且您对此非常确定(95%)。

将此与相对较宽的 95% CI 进行比较(与之前的示例相匹配,假设它是 100 个单位宽):在这里,您仍然 95% 确定真实值将在此区间内,但这并不能告诉您很多,因为区间中有相对较多的值(大约是 100 倍而不是 1 倍——我再次要求纯粹主义者忽略简化)。

通常,当您希望 99% 确定其中包含真实值时,您将需要更大的间隔,而不是仅需要 95% 确定时(注意:如果间隔没有嵌套,则可能不正确),所以确实,您需要的信心越大,您需要选择的区间就越宽。

另一方面,置信区间越高,您就越确定。所以,如果我给你两个宽度相同的区间,我说一个是 95% CI,另一个是 99% CI,我希望你会更喜欢 99% 的那个。从这个意义上说,99% 的 CI 更准确:您不会怀疑自己会错过真相。

我在这里添加了一些我投赞成票的好答案。我认为还有一点要说才能完全弄清楚结论。我喜欢 Efron 定义的准确和正确的术语。我最近在另一个问题上对此进行了长时间的讨论。温和的胡贝尔真的很喜欢这个答案。我不会在这里重复这一点。然而,对于 Efron 而言,准确度与置信水平有关,而正确性与区间的宽度或紧密度有关。但是你不能在不首先考虑准确性的情况下谈论紧密性。一些置信区间是准确的,因为它们具有他们所宣传的实际覆盖范围。95% 的置信区间也可以是近似的,因为它使用渐近分布。基于渐近的近似间隔适用于有限样本大小 n 不会具有广告覆盖范围,如果渐近分布是精确分布,您将获得的覆盖范围。因此,一个近似的时间间隔可能是掩护(即,当实际覆盖率仅为 91% 时,宣传 95%)或在罕见但不太严重的情况下掩护(即,宣传的覆盖率为 95%,但实际覆盖率为 98%)。在前一种情况下,我们担心实际覆盖范围与广告覆盖范围有多接近)。接近度的衡量标准是准确度的顺序,可以说是 1/√n 或 1/n。如果实际置信水平接近,我们称其为准确。Accuray 对于引导置信区间很重要,这些置信区间从不准确,但某些变体比其他变体更准确。

这种准确性的定义可能与 OP 所指的不同,但现在应该清楚 Efron 的定义是什么以及为什么准确很重要。现在,如果您有两种精确的方法,如果对于任何置信水平,它具有较小的预期宽度,我们可以更喜欢另一种。在这个意义上最好的置信区间(有时称为最短)将是可供选择的置信区间。但这需要精确性。如果置信水平只是近似值,我们可以比较苹果和橙子。一个可能比另一个更窄,只是因为它不太准确,因此实际覆盖范围低于其广告覆盖范围。

如果两个置信区间都非常准确,或者一个非常准确,另一个非常准确,则比较预期宽度可能没问题,因为至少现在我们只查看两个两个品种的苹果。