自举显着性检验的两种方法

机器算法验证 统计学意义 引导程序 p 值
2022-03-18 08:33:59

使用引导程序,我使用两种方法计算显着性检验的 p 值:

  1. 在原假设下重新采样并计算结果至少与来自原始数据的结果一样极端
  2. 在备择假设下重新抽样,并计算结果与原始结果的距离至少与原假设对应的值一样远

我相信一种方法是完全正确的,因为它遵循 ap 值的定义。我不太确定第二个,但它通常给出非常相似的结果并提醒我进行 Wald 测试。

我对吗?两种方法都正确吗?它们是否相同(对于大样本)?


两种方法的示例(在 DWin 的问题和 Erik 的回答之后进行编辑):
示例 1. 让我们构建一个类似于两个样本 T 检验的自举检验。方法 1 将从一个样本中重新采样(通过合并原始两个样本获得)。方法 2 将独立地从两个样本中重新采样。

示例 2。让我们构建一个 x₁…xₐ 和 y₁…yₐ 之间相关性的引导测试。方法 1 将假设没有相关性,并允许重新采样 (xₑ,yₔ) 对,其中 e≠ə。方法 2 将编译原始 (x,y) 对的引导样本。

示例 3. 让我们构建一个引导测试来检查硬币是否公平。方法 1 将创建随机样本,设置 Pr(head)=Pr(tail)=½。方法 2 将重新采样实验头/尾值的样本,并将比例与 ½ 进行比较。

1个回答

第一种方法是经典且值得信赖的,但并不总是可以使用。要获得假设零假设的引导样本,您必须愿意假设一个理论分布保持不变(这是您的第一个选项)或假设您感兴趣的统计数据在转移到零假设时具有相同的分布形状(您的第二个选项)。例如,在通常的假设下,t 分布在转移到另一个平均值时具有相同的形状。但是,当将二项分布的零频率 0.5 更改为 0.025 时,形状也会发生变化。

根据我的经验,如果您愿意做出这些假设,您通常还有其他选择。在您的示例 1) 中,您似乎假设两个样本都可能来自同一个基群,我认为置换检验会更好。

还有另一个选项(您似乎是您的第二选择)基于引导置信区间。基本上,这假设如果您声明的覆盖范围在一定程度上具有重要意义α相当于原假设不包含在(1α)-置信区间。例如,请参阅这个问题:置信区间和假设检验之间有什么区别?

这是一种非常灵活的方法,适用于许多测试。但是,构建良好的引导置信区间非常关键,而不仅仅是使用 Wald 近似或百分位数方法。一些信息在这里:基于引导的置信区间