95% 是否以任何方式特定于置信区间?

机器算法验证 置信区间 解释
2022-01-28 16:17:18

我知道“95% 的置信区间意味着真实参数有 95% 的机会落在这个范围内”的误解,并且正确的解释是,如果你从这些置信区间中构建 100 个随机抽样,则 95 个置信区间应包含真实参数。

https://www.econometrics-with-r.org/5-2-cifrc.html中,我看到以下内容:

在此处输入图像描述

这个措辞不正确吗?似乎是说真实值有 95% 的机会处于该特定置信区间内。

我的第二个问题是,假设你有这 95 个置信区间之一。除了使用 95% 来获得 1.96 的 Z 分数之外,95% 还体现在这个置信区间中吗?

4个回答

这个措辞不正确吗?似乎是说真实值有 95% 的机会处于该特定置信区间内。

您必须记住,在频率统计中,您正在估计的参数(在您的情况下,系数的真实值)被视为随机变量,而是被视为固定实数。这意味着说 is in the interval with probability”之类的说法是不正确的,因为不是随机变量,因此没有概率分布。在区间内的概率(如果固定值)或βiβi[a,b]95%βiβi100%βi[a,b]0%(如果固定值βi[a,b]

这就是为什么“95% 的置信区间意味着真实参数有 95% 的机会落在此范围内”是一种误解。

另一方面,置信区间的界限本身是随机变量,因为它们是从样本数据中计算出来的。这意味着说“在 95% 的所有可能样本中,在 95% 的置信区间内”是正确的。这并不意味着的机会处于特定区间内,而是意味着每个样本不同的置信区间的概率落在附近。βiβi95%95%βi

请注意,在对数据进行采样之前,置信区间将以95% 的概率采样后,置信区间边缘将只是两个固定数字,不再是随机变量,并且适用于第一段的相同原理。我认为下图为这个想法提供了一个很好的可视化:βi

许多不同的置信区间,其中 19/20 包含真实参数,1 个不包含它。

因此,那里使用的措辞实际上是正确的。

除了使用 95% 来获得 1.96 的 Z 分数之外,95% 还体现在这个置信区间中吗?

1.96 Z 分数是唯一出现 95% 的地方。如果您将其更改为对应于 85% 的 Z 分数,您将获得公式 85% 置信区间。

也许如果你改写为:

"想象一下,您在完全相同的条件下无限期地重复抽样。对于每次抽签,您计算一个参数估计值及其标准误差,以计算 95% 的置信区间 [图中的公式]。然后这个 95% 的置信区间将捕获如果满足所有假设并且零假设为真,则 95% 的时间里的总体参数是真实的。

那会更有意义吗?

至于你的第二个问题,请考虑下面的标准正态分布。曲线下的总面积等于 1。如果您认为显着性水平为 5%,并在每个尾部(红色区域)之间进行拆分,那么您剩下的 95% 位于中间。如果原假设为真,那么这是您不会拒绝原假设的区域,因为落在该区域的任何 Z 分数在原假设下都是合理的。只有当您的 Z 分数落入红色区域时,您才会拒绝原假设,因为您的样本提供了反对原假设的重要证据,或者换句话说,您可能发现了 - 万岁:D

现在,通过将 +/-1.96 的临界 Z 分数(在 95% 置信度的情况下)与样本的标准误差相乘,您可以将此 95% 区间转换回原始测量范围。因此,每个置信区间对应于您的测量尺度上的假设检验,如图像上最后一句中所建议的那样。

在此处输入图像描述

95% conf.int.意味着实际经验值只有 5% 的机会超出此区间。换句话说,如果(以及何时)将该范围视为基本事实,则误报的可能性为 5%。

我的第二个问题是,假设你有这 95 个置信区间之一。除了使用 95% 来获得 1.96 的 Z 分数之外,95% 还体现在这个置信区间中吗?

95%体现在以下方面

概率陈述:“95% 的置信区间意味着真实参数有 95% 的机会落在此范围内”

这种说法存在误解,但这种说法本身并不是一种误解。

概率陈述是否正确取决于您如何调节概率。这取决于对概率/机会含义的解释。

您可以将这个概率表达为“包含真实参数的区间”,以观察为条件,但也以真实参数为条件。

所以是的,如果概率被错误地解释,那么概率陈述就是错误的。

但不,如果概率被正确解释,概率陈述并没有错。

例子

来自https://stats.stackexchange.com/a/481937/https://stats.stackexchange.com/a/444020/

假设我们测量以确定/估计Xθ

XN(θ,1)whereθN(0,τ2)

这里也遵循一个分布。(例如,您可以想象是某种智力度量,它因人而异,其中在所有人中的分布。而是一些智力测试的结果)。θθN(0,τ2)θX

下面是 20k 个案例的模拟。

瓦瑟曼示例

在图像中,我们为 95% 置信区间(红色)和 95% 可信区间(绿色)的边界绘制线条,作为观察的函数。(有关这些边界计算的更多详细信息,请参阅参考资料)X

我们可以将“包含真实参数的区间的概率”视为以观察为条件或以真实参数条件。我们已经为这两种类型的区间绘制了两种不同的解释。只有在正确的情况下(以条件),关于置信区间的概率陈述是错误的。XθX

为什么 95% 置信区间 (CI) 并不意味着 95% 的机会包含均值?.

解释此观点相关性的实际情况:在上面的示例中,这可能是关于智力测试,我们已经完成了测试以选择具有高智力的人,并且我们有一个测试的人的子样本特定范围的测试观察(例如,我们为某项工作选择了具有高智力的候选人)。现在我们可能想知道这些人中有多少人的 95% 置信区间包含真实参数......好吧,它不会是 95%,因为置信区间在 95% 的情况下不包含我们条件下的参数在特定的观察(或观察范围)。X

关于误解的误解

人们经常提到概率陈述不正确,因为经过观察,该陈述要么是 100% 正确,要么是 0% 正确。参数要么在区间内,要么在区间外,不能同时在区间内。但是我们不知道它是这两种情况中的哪一种,并且我们表达了我们基于数据的确定性/不确定性的概率(基于一些假设)。

(请注意,关于“概率陈述为假”的这一论点适用于任何类型的区间,但不知何故,因为置信区间与概率的常客解释相关,所以不允许概率陈述。)

谈论“参数在某个区间内”的概率是完全可以的(或者如果你对这个表达式感到不舒服,那么你可以把它反过来说,“区间在参数周围”的概率)即使参数将是一个常数,区间不是一个常数(而是一个随机变量),因此可以对两者之间的关系进行概率陈述。(如果这个论点仍然不舒服,那么人们也可以采用倾向概率解释而不是概率的频率解释,置信区间不需要频率解释)

示例:从一个装有 10 个红色和 10 个蓝色球的瓮中,您“随机”挑选一个球而不看它。那么你可以说你有 50% 的概率选择了红色,50% 的概率选择了蓝色。尽管在(未知的)现实中,它要么是 100% 蓝色,要么是 100% 红色,并不是真正的随机选择,而是一个确定的过程。

迂腐的笔记

包含所有样本中 95% 的真值的区间由表达式给出...βi

这个措辞正确吗?

  • 不是间隔。将有多个具有相同属性的间隔。
  • 具体地说,它是一个区间,包含95% 的所有样本的真值无关βiβi