语境
这有点类似于这个问题,但我不认为它是完全重复的。
当您查找有关如何执行引导假设检验的说明时,通常会说可以将经验分布用于置信区间,但您需要从零假设下的分布正确引导以获得 p-价值。例如,请参阅此问题的已接受答案。互联网上的一般搜索似乎大多会出现类似的答案。
不使用基于经验分布的 p 值的原因是大多数时候我们没有平移不变性。
例子
让我举一个简短的例子。我们有一枚硬币,我们想做一个单面测试,看看正面的频率是否大于 0.5
我们执行试验,得到正面。此测试的真实 p 值为。
另一方面,如果我们引导 20 个正面中的 14 个,我们有效地从和的二项式分布中采样。通过减去 0.2 来移动这个分布,当根据获得的经验分布测试我们的观察值 0.7 时,我们将得到一个几乎不显着的结果。
在这种情况下,差异非常小,但当我们测试的成功率接近 1 时,差异会变大。
问题
现在让我来谈谈我的问题的真正要点:同样的缺陷也适用于置信区间。事实上,如果置信区间具有规定的置信水平,那么在原假设下不包含参数的置信区间相当于在显着性水平为时拒绝原假设。
为什么基于经验分布的置信区间被广泛接受而 p 值不被接受?
是否有更深层次的原因,或者人们只是对置信区间不那么保守?
在这个答案中,Peter Dalgaard 给出的答案似乎与我的论点一致。他说:
这种推理方式没有什么特别错误的,或者至少不比 CI 的计算差(很多)。
(很多)从哪里来?这意味着以这种方式生成 p 值稍微差一些,但没有详细说明这一点。
最后的想法
同样在Efron 和 Tibshirani的 An Introduction to the Bootstrap中,他们将大量空间用于置信区间,但不用于 p 值,除非它们是在适当的零假设分布下生成的,除了一条关于一般等价性的一次性行关于置换检验的章节中的置信区间和 p 值。
让我们也回到我链接的第一个问题。我同意 Michael Chernick 的回答,但他也再次认为,基于经验引导分布的置信区间和 p 值在某些情况下同样不可靠。它没有解释为什么你发现很多人告诉你间隔是好的,但 p 值不是。