置信区间何时有用?

机器算法验证 置信区间 解释
2022-02-09 23:13:29

如果我理解正确,参数的置信区间是由一种方法构造的区间,该区间产生包含指定比例样本的真实值的区间。因此,“信心”与方法有关,而不是我从特定样本中计算出的区间。

作为统计数据的用户,我总是觉得被这个欺骗了,因为所有样本的空间都是假设的。我只有一个样本,我想知道该样本告诉我关于参数的信息。

这个判断有错吗?至少在某些情况下,是否有查看置信区间的方法,这对统计用户来说是有意义的?

[这个问题是在对 math.se 答案中的置信区间进行分析后产生的第二个想法https://math.stackexchange.com/questions/7564/calculating-a-sample-size-based-on-a-confidence-level/7572第7572

4个回答

我喜欢将 CI 视为逃避假设检验 (HT) 框架的某种方式,至少是遵循Neyman方法的二元决策框架,并以某种方式与测量理论保持一致。更准确地说,我认为它们更接近估计的可靠性(例如,手段的差异),相反,HT 更接近假设演绎推理,但存在缺陷(我们不能接受零值,替代方案是通常是随机的,等等)。尽管如此,对于区间估计和 HT,我们大部分时间都必须依赖分布假设(例如,低于 H0 的抽样分布),这允许从我们的样本对一般人群或代表性人群进行推断(至少在频率论者的方法)。

在许多情况下,CI 是对通常的 HT 的补充,我将它们视为下图(它在 H0 下):

替代文字

也就是说,在 HT 框架下(左),您可以查看统计数据与 null 的距离,而使用 CI(右),您可以从某种意义上“从您的统计数据”查看 null 效应。

另外,请注意,对于某些类型的统计数据,例如优势比,HT 通常是没有意义的,最好查看其相关的不对称 CI,并提供有关关联方向和精度的更多相关信息(如果有)。

与您的第二个问题相关的另一种方法,“有没有办法查看置信区间,至少在某些情况下,这对统计用户有意义?”:

你应该看看贝叶斯推理和由此产生的可信区间95% 的可信区间可以解释为您认为包含真实参数值的概率为 95% 的区间。您付出的代价是,在收集数据之前,您需要对您认为真实参数可能采用的值进行先验概率分布。而且您的先验可能与其他人的先验不同,因此即使您使用相同的数据,您得到的可信区间也可能不同。

这只是我快速粗暴的总结!最近一本很好的实用教科书是:

Andrew Gelman、John B. Carlin、Hal S. Stern 和 Donald B. Rubin。“贝叶斯数据分析”(第 2 版)。查普曼和霍尔/CRC,2003 年。ISBN 978-1584883883

您说 95% 置信区间是使用适用于 95% 案例的方法所产生的结果是正确的,而不是任何单个区间有 95% 的可能性包含预期值。

“即使是现在,置信限度的逻辑基础和解释仍然是一个有争议的问题。” {David Colquhoun,1971,生物统计学讲座}

该引文摘自 1971 年出版的统计教科书,但我认为在 2010 年仍然如此。在二项式比例的置信区间的情况下,争议可能最为极端。计算这些置信区间有许多相互竞争的方法,但它们在一种或多种意义上都是不准确的,即使是表现最差的方法也有教科书作者的支持者。即使所谓的“精确”区间也无法产生置信区间所期望的属性。

在为外科医生写的一篇论文中(众所周知,他们对统计学很感兴趣!),约翰·路德布鲁克和我主张常规使用使用统一贝叶斯先验计算的置信区间,因为这样的区间具有与任何其他方法一样好的频率属性(平均对所有真实比例的准确覆盖率为 95%),但重要的是,对所有观察到的比例(准确为 95% 的覆盖率)的覆盖率要好得多。这篇论文,因为它的目标读者,不是很详细,所以它可能无法说服所有的统计学家,但我正在写一篇带有全套结果和理由的后续论文。

在这种情况下,贝叶斯方法具有与常客方法一样好的常客属性,这种情况经常发生。统一先验的假设没有问题,因为我遇到的每个频率覆盖率计算都内置了人口比例的统一分布。

你问:“有没有办法查看置信区间,至少在某些情况下,这对统计用户有意义?” 那么,我的回答是,对于二项式置信区间,对于所有观察到的比例,可以得到包含人口比例的区间恰好有 95% 的时间。那是肯定的。然而,置信区间的传统使用期望覆盖所有人口比例,因此答案是“不!”

您的问题答案的长度以及对它们的各种回答表明置信区间被广泛误解。如果我们将目标从覆盖所有真实参数值更改为覆盖所有样本值的真实参数值,它可能会变得更容易,因为间隔将被塑造为与观察值直接相关,而不是与方法本身。

我认为这个问题的前提是有缺陷的,因为它否认了不确定已知之间的区别

描述硬币翻转提供了一个很好的类比。在掷硬币之前,结果是不确定的;之后,它不再是“假设的”。将这种既成事实与我们希望理解的实际情况(硬币的行为,或根据其结果做出的决定)混淆,本质上否认了概率在理解世界中的作用。

这种对比在实验或监管领域中得到了明显的体现。在这种情况下,科学家或监管者知道他们将面临结果在任何时候都未知的情况,但他们必须做出重要的决定,例如如何设计实验或建立用于确定是否符合法规的标准(用于药物检测、工作场所安全、环境标准等)。这些人和他们为之工作的机构需要方法和这些方法的概率特征的知识,以便制定最佳和可辩护的策略,例如良好的实验设计和尽可能少出错的公平决策程序。

置信区间,尽管它们的经典理由很差,但适合这个决策理论框架。当构造随机区间的方法具有良好特性的组合时,例如确保区间的最小预期覆盖范围和最小化区间的预期长度——它们都是先验性质,而不是验性质——然后长期使用该方法,我们可以最大限度地减少与该方法指示的行动相关的成本。