置信区间 / p 值对偶与 CI 的常客解释

机器算法验证 假设检验 置信区间 p 值 常客
2022-03-28 12:49:48

许多消息来源表明置信区间和假设检验之间存在二元性。(*)但我在哲学上难以理解这一点。置信区间的常客解释类似于(根据维基百科):

如果要对多个样本重复此过程,则计算出的 [90%] 置信区间(每个样本会有所不同)将在 90% 的时间内包含真实的总体参数。

然而,如果原假设为真,则 p 值是根据样本均值可能采用的值来定义的。(即在单尾情况下:)。p=P(x¯x¯observedμ=H0)

如何将一个关于可能正确地将真实总体均值绑定到关于观测样本均值概率的陈述中的过程的陈述进行操作?

如果我们将置信区间理解为表征总体样本均值的分布(自举程序的观点),那么就没有问题了。在给定实际总体(即超出 95% CI)的情况下,更极端的情况与 < 5 的情况之间存在明显的对称性为中心(即,获得样本平均值的机会与观察到的一样极端。H0H0H0p<0.05

但这种对 CI 的解释似乎不受欢迎!特别是,维基百科文章告诫:“置信区间不是样本均值的合理值范围,尽管它可以理解为总体参数合理值的估计。”

即使 CI 实际上是样本均值的一系列合理值,问题仍然存在。这样的定义在多大程度上等同于上面的常客程序定义?

(*) Minitab 博客文章就是一个很好的例子

置信水平相当于 1 – alpha 水平。因此,如果您的显着性水平为 0.05,则相应的置信水平为 95%。

  • 如果 P 值小于显着性 (alpha) 水平,则假设检验具有统计显着性。
  • 如果置信区间不包含原假设值,则结果具有统计显着性。
  • 如果 P 值小于 alpha,则置信区间将不包含原假设值。
1个回答

您在每种情况下使用不同的零假设。

执行假设检验时,您将零假设设置为您试图测试其不合理性的某个值。让我们考虑以下模型:

Y=βX+ϵ

您将收集一些数据并用它来计算的估计值,我们称之为然后,您通常会按如下方式设置假设检验:ββ^

H0:β=0
H1:β0

对于您使用的任何测试,p 值都是以普通方式计算的。要计算置信区间,请使用以下零假设,该假设检验的真实值是否等于您观察到的估计值。β

H0:β=β^
H1:ββ^

假设您正在尝试计算 95% 的置信区间。您会找到零分布的拒绝区域的界限(即,对于两个单尾检验,p = 0.025),并且在将检验统计量转换回的单位后,您就有了置信区间。β

这就是假设检验和置信区间计算的对偶性所在——这个置信区间包含的真实值,原因与将设置为 0.05 会给你 5% 的 I 类错误率一样。当然,这取决于您选择的测试是否能够为您的数据集维持标称的 I 类错误率,但这完全是一个单独的问题。βα