在 Bootstrapping 中获得的 p 值与置信区间

机器算法验证 引导程序 p 值
2022-04-02 02:22:59

我用 1 个对照和 1 个实验条件(最终 N = 80)进行了一个简单的随机实验。因变量(显示行为的频率)显然不是正态分布的,所以我考虑引导我的分析(独立 t 检验)。

没有自举的 t 检验导致条件之间的显着影响 (p < .05)。使用 SPSS,基于自举(5000 次重采样)的 p 值仅略微显着(p < .10)。但是,95% 置信区间不包括零。

我只是应用统计方法,有时我不知道什么是正确的(不幸的是!)。但这就是我问这个问题的原因。当我试图了解 Bootstrapping 的工作原理时,我认为必须查看置信区间来检测效果是否不为零。在我上面的示例中,95% CI 不伴随自举 p 值。所以我不知道我是否应该报告自举 CI 和/或自举 p 值和/或典型的未自举 p 值。

你打算说什么?

2个回答

引导置信区间有多种选择。所有 bootstrap 置信区间都是近似的,并且在小样本中并不总是表现良好(通常 80 不被认为是小样本)。此外,如果您阅读 Hall 和 Wilson 的论文,您会发现假设零假设下的自举分布的测试假设比反转置信区间效果更好。如何使检验统计中的关键量居中是一个问题。Schenker 在 1985 年表明,当样本量不是很大时,Efron 的百分位数方法甚至 BC 方法等自举方法严重覆盖了某些卡方总体的真实参数。Chernick 和 LaBudde 在 2010 年美国数学与管理科学杂志中表明,在小样本中,对于高度偏斜的分布(例如对数正态),BCa 和 bootstrap t 甚至可能存在问题。因此,根据包括我自己的研究在内的文献,我建议使用 Hall 和 Wilson 推荐的居中方法进行假设检验,并将您的结论基于该 p 值。您可以在 Wiley 于 2011 年出版的我最近出版的“An Introduction to the Bootstrap with Applications to R”一书中找到对此的详细介绍。

我不是真正的 Bootstrap 专家,但我可以告诉你两件主要的事情:

  1. Bootstrap 置信区间通常比没有 bootstrap 的置信区间更加稳健和准确。
  2. 如果您使用 bootstrap 估计参数,则您的置信区间 (CI) 通常以与常规 t 检验不同的方式进行评估。例如,在常规情况下 CI 是(这里是参数的估计,是一个分位数)。但是对于引导程序,它是减在这两种情况下签名)。[θ^q^1α/2,θ^+q^α/2]θ^q^αα[θ^q^1α/2,θ^q^α/2]

从这一切我建议你重新检查这个公式引导 CI 是否伴随 p 值。如果您发现现在没问题,请报告引导结果。如果不是,最好向 SPSS 专家询问 bootstrap 是如何工作的。