从分层数据中获取和解释自举置信区间

机器算法验证 置信区间 引导程序
2022-03-20 05:14:23

我有兴趣获得数量 X 的自举置信区间,当这个数量在 10 个人中的每一个人中测量 10 次时。

一种方法是获取每个个体的平均值,然后引导平均值(例如,通过替换重新采样平均值)。

另一种方法是在引导过程的每次迭代中执行以下操作:在每个个体中,重新采样该个体的 10 个观察值并进行替换,然后计算该个体的新均值,最后计算新的组均值。在这种方法中,在原始数据集中观察到的每个个体总是在引导过程的每次迭代中对组平均值做出贡献。

最后,第三种方法是结合上述两种方法:对个体重新采样,然后在这些个体中重新采样。这种方法与前一种方法的不同之处在于,它允许同一个人在每次迭代中对组均值做出乘数贡献,尽管由于每个贡献都是通过独立的重采样过程生成的,因此这些贡献可能会彼此略有不同。

在实践中,我发现这些方法对置信区间产生了不同的估计(例如,对于一个数据集,我发现第三种方法产生的置信区间比前两种方法大得多),所以我很好奇每种方法可能是什么解释为代表。

2个回答

您的第一种方法是关于 S CI 之间的。如果您想在 S 内进行测量,那么这是错误的方法。

第二种方法将生成仅适用于这 10 个人的内部 S CI。

最后一种方法是内部 S CI 的正确方法。CI 的任何增加都是因为您的 CI 更能代表可以应用于总体的 CI,而不是那些 10 个 S。

根据 Davison 和 Hinckley(“Bootstrap 方法及其应用”,1997 年,第 3.8 节),第三种算法是保守的。他们提倡第四种方法:简单地重新采样主题。