我一直在尝试从我为构建置信区间而生成的引导分布中为一个稍微棘手的情况提取 p 值的可能性。我正在阅读的所有内容,包括在 StackExchange 上(例如https://stats.stackexchange.com/a/277391/54668)和其他地方,都谈到了重新调整数据,以便引导样本代表null 下的统计分布. 作为前进的方向,这是有道理的。但我不明白的是,为什么我们不能只看我们用来生成 CI 的引导样本中零假设参数值的百分位数?我知道这不是 bootstrap 样本应该建模的,但我的想法如下:
我知道抽样分布(如果替代方案为真)可能与 null 为真时的抽样分布大不相同,并且引导样本对估计的抽样分布进行建模......但是......然后下面的逻辑离开了我使困惑。为了解释的简单,我将讨论片面的 CI 和测试()。为了简单起见,我将坚持使用百分位 CI(假设我们可以假设它们在这种情况下会很好):
假设空 () 是真的。为一个CI,它会错过零,% 的时间,给予错误显着的结果(在等级)。
取一个小. 如果第一个引导百分位数正好在我们的空值 (0) 之上,然后我们的空值 (0) 位于 CI 之外,这是一个误报并且在统计上显着水平,和. 相反,如果第 th 个百分位刚好低于零,那么. 所以当然,为此,? IE是引导样本中空值的百分位数。这个逻辑有漏洞吗?或者还有其他原因为什么我们需要对数据进行所有这些转移以重新创建零分布?