许多消息来源表明置信区间和假设检验之间存在二元性。(*)但我在哲学上难以理解这一点。置信区间的常客解释类似于(根据维基百科):
如果要对多个样本重复此过程,则计算出的 [90%] 置信区间(每个样本会有所不同)将在 90% 的时间内包含真实的总体参数。
然而,如果原假设为真,则 p 值是根据样本均值可能采用的值来定义的。(即在单尾情况下:)。
如何将一个关于可能正确地将真实总体均值绑定到关于观测样本均值概率的陈述中的过程的陈述进行操作?
如果我们将置信区间理解为表征总体样本均值的分布(自举程序的观点),那么就没有问题了。在给定实际总体(即超出 95% CI)的情况下,更极端的情况与 < 5 的情况之间存在明显的对称性为中心(即),获得样本平均值的机会与观察到的一样极端。
但这种对 CI 的解释似乎不受欢迎!特别是,维基百科文章告诫:“置信区间不是样本均值的合理值范围,尽管它可以理解为总体参数合理值的估计。”
即使 CI 实际上是样本均值的一系列合理值,问题仍然存在。这样的定义在多大程度上等同于上面的常客程序定义?
(*) Minitab 博客文章就是一个很好的例子:
置信水平相当于 1 – alpha 水平。因此,如果您的显着性水平为 0.05,则相应的置信水平为 95%。
- 如果 P 值小于显着性 (alpha) 水平,则假设检验具有统计显着性。
- 如果置信区间不包含原假设值,则结果具有统计显着性。
- 如果 P 值小于 alpha,则置信区间将不包含原假设值。