为什么引导 p 值不仅仅是在引导样本中找到空值?

机器算法验证 p 值 引导程序
2022-04-08 03:29:32

我一直在尝试从我为构建置信区间而生成的引导分布中为一个稍微棘手的情况提取 p 值的可能性。我正在阅读的所有内容,包括在 StackExchange 上(例如https://stats.stackexchange.com/a/277391/54668)和其他地方,都谈到了重新调整数据,以便引导样本代表null 下的统计分布. 作为前进的方向,这是有道理的。但我不明白的是,为什么我们不能只看我们用来生成 CI 的引导样本中零假设参数值的百分位数?我知道这不是 bootstrap 样本应该建模的,但我的想法如下:

我知道抽样分布(如果替代方案为真)可能与 null 为真时的抽样分布大不相同,并且引导样本对估计的抽样分布进行建模......但是......然后下面的逻辑离开了我使困惑。为了解释的简单,我将讨论片面的 CI 和测试(H0:μ=0,H1:μ>0)。为了简单起见,我将坚持使用百分位 CI(假设我们可以假设它们在这种情况下会很好):

假设空 (μ=0) 是真的。为一个(1x)%CI,它会错过零,x% 的时间,给予x%错误显着的结果(在x%等级)。

取一个小ϵ. 如果(x+ϵ)第一个引导百分位数正好在我们的空值 (0) 之上,然后我们的空值 (0) 位于 CI 之外,这是一个误报并且在统计上显着(x+ϵ)%水平,和p<(x+ϵ). 相反,如果(xϵ)第 th 个百分位刚好低于零,那么p>(xϵ). 所以当然,为此x,(xϵ)<p=x<(x+ϵ)? IEp=x是引导样本中空值的百分位数。这个逻辑有漏洞吗?或者还有其他原因为什么我们需要对数据进行所有这些转移以重新创建零分布?

1个回答

嗨:我认为你缺少的是,为了使引导工作,不仅被引导的“事物”的分布必须收敛到零下的分布,而且“事物”必须是关键的。关键是指被引导的统计数据不依赖于在 null 下测试的参数。

但是,如果我们使用自举样本本身,那么很明显,这是不正确的。如果我们从原始总体中生成样本,那么样本的自举分布显然取决于μ.

自举的想法是能够通过使用从样本构造的关键统计量(希望)收敛到分布这一事实来避免关于原始样本的分布假设。这样,我们可以查看关键统计量的结果分布,并查看原始样本的实际统计量在该分布中的哪个位置。我希望这会有所帮助。