置信区间有用吗?

机器算法验证 假设检验 贝叶斯 数理统计 置信区间 常客
2022-03-26 22:58:03

在频率统计中,95% 置信区间是一个产生区间的过程,如果重复无限次,95% 的时间将包含真实参数。为什么这很有用?

置信区间经常被误解。它们不是我们可以 95% 确定参数所在的区间(除非您使用类似的贝叶斯可信区间)。置信区间对我来说就像一个诱饵和开关。

我能想到的一个用例是提供我们不能拒绝参数是那个值的零假设的值范围。p 值不会提供这些信息,但更好吗?不至于如此误导?

简而言之:为什么我们需要置信区间?如果正确解释,它们如何有用?

4个回答

只要置信区间被视为随机的(即,从将数据视为一组我们尚未见过的随机变量的角度来看),那么我们确实可以对其进行有用的概率陈述。具体来说,假设参数的置信区间为级,并且区间的边界为那么我们可以这样说:1αθL(x)U(x)

P(L(X)θU(X)|θ)=1αfor all θΘ.

移出频率论范式并边缘化会给出相应的(较弱的)边际概率结果:θ

P(L(X)θU(X))=1α.

来固定置信区间的边界,我们就不再诉诸这种概率陈述,因为我们现在已经固定了数据。然而,如果置信区间被视为一个随机区间,那么我们确实可以做出这个概率陈述——即,在概率下,参数将落在(随机)区间内。X=x1αθ

在频率统计中,概率陈述是关于无限重复试验的相对频率的陈述。但是对于频率论范式中的每个概率陈述都是如此,因此,如果您反对相对频率陈述,那并不是针对置信区间的反对意见。如果我们跳出频率论范式,那么我们可以合理地说,置信区间包含具有所需概率的目标参数,只要我们稍微做出这个概率陈述(即,不以数据为条件)并且我们因此处理置信区间在它的随机意义上。

我不知道其他人,但在我看来,这是一个非常强大的概率结果,也是这种间隔形式的合理理由。我自己更偏爱贝叶斯方法,但支持置信区间的概率结果(在随机意义上)是不可忽视的强大结果。此外,即使在贝叶斯分析的背景下,我们让是具有先验分布的随机变量,我们可以看到置信区间包含参数的先验预测概率等于置信水平。因此,即使在这种替代范式中,置信区间也可以被视为具有强大的先验预测属性的估计量。θ

我同意上面的@Ben,我想我会提供一个简单的例子来说明贝叶斯与频率间隔在相同情况下的价值。

想象一家拥有平行装配线的工厂。停止一条生产线的成本很高,同时,他们希望生产出优质的产品。随着时间的推移,他们担心误报和误报。对于工厂来说,这是一个平均过程:功率和对误报的保证保护都很重要。置信区间和公差区间对工厂很重要。尽管如此,机器会失准,即,检测装置将观察到虚假事件。平均结果很重要,而具体结果是操作细节。θΘ

与此相反的是单个客户购买单个产品或单个批次的产品。他们不关心装配线的重复属性。他们关心他们购买的一种产品。让我们假设客户是 NASA,他们需要产品满足规范,例如 他们不关心他们没有购买的零件的质量。他们需要某种形式的贝叶斯区间。此外,一次故障可能会杀死许多宇航员并造成数十亿美元的损失。他们需要知道购买的每个零件都符合规格。平均将是致命的。对于土星五号火箭,1% 的缺陷率意味着在阿波罗飞行期间有 10,000 个缺陷部件。他们要求所有任务的缺陷率为 0%。γΓ.

当您像工厂一样在样本空间中工作时,您会担心置信区间。它正在创建样本空间。当您在参数空间中工作时,您会担心可信的时间间隔,就像客户所做的那样。如果你不关心你之外的观察,那么你就是贝叶斯。如果您确实关心没有看到但可能已经看到的样本,那么您就是常客。

您是否关心长期平均或特定事件?

请注意,通过置信区间的严格定义,它们可能完全没有意义,不能提供有关感兴趣参数的信息。但是,在实践中,它们通常非常有意义。

作为一个无意义的置信区间的例子,假设我有一个过程,95% 的时间产生,5% 的时间产生 [ , ],其中任意一对随机变量,如那么这是一个至少在 95% 的时间内捕获任何概率的过程,因此在技术上是任何概率的有效置信区间。然而,如果我告诉这个过程产生的区间对于给定的一无所知[0,1]UminUmaxUmin,UmaxUmin<Umax[0.01,0.011]pp

另一方面,大多数置信区间是以更有用的方式构建的。例如,如果我告诉你它是使用 Wald Interval 程序创建的,那么我们知道

p^ ˙ N(p,se)

其中是标准误差。这是关于如何与相关的非常有意义的陈述。将其转换为置信区间只是试图将这个结果简化给不太熟悉正态分布的人。这也不仅仅是说它只是为不了解正态分布的人提供的工具。例如,当该误差的分布可能是非高斯分布时,百分位自举法是一种用于总结估计量和真实参数之间的误差的工具。sep^p

置信区间不仅有用,而且在某些领域(例如物理学)中必不可少。不幸的是,关于 CI 的最大噪音来自与频率论者进行虚假辩论的贝叶斯主义者,通常是在社会“科学”和其他类似科学的学科的背景下。

假设我测量物理学中的一个量,例如电荷。我总是会为它提供值的不确定性度量,通常是标准偏差。因为,在物理学中,错误通常是高斯的,这直接转化为 CI。但是,当误差不是高斯时,它会变得有点复杂,需要评估一些积分等。虽然通常没有什么太深奥的。

下面简要介绍粒子物理学中的 CI 及其定义:

关于这样一个区间在大量重复实验中包含参数真实值的比例的定量陈述

请注意,在物理学中,“重复实验”通常具有字面意义:假设实际上可以在论文中重复实验,并且实际上会观察到该分数。因此,CI 对您来说几乎具有字面意义,并且只是表达有关测量不确定性的信息的一种方式。这不是思想实验,不是主观意见,不是你或我对可能性等的感受。这是你从实验中能够设计出来的,也是我在复制你的实验时应该能够观察到的。