引导方法。为什么重新采样“替换”而不是随机子采样?

机器算法验证 引导程序 重采样 二次抽样
2022-02-10 23:15:31

bootstrap 方法在过去几年中得到了很大的普及,我也经常使用它,尤其是因为背后的推理非常直观。

但这是我不明白的一件事。为什么 Efron 选择使用替换执行重采样,而不是通过随机包含或排除单个观测值来简单地进行二次采样?

我认为随机二次抽样有一个非常好的品质,即理想地代表现实生活中的情况,在这种情况下,我们在研究中的观察结果是假设人群的一个子集。我没有看到在重采样期间进行多次观察的优势。在真实情况下,没有观察与其他观察相似,尤其是对于复杂的多变量情况。

1个回答

理解这种选择的一种方法是将手头的样本视为您对潜在总体的最佳代表。您可能不再需要对整个人口进行抽样,但您确实拥有人口的这种特殊表示。从这种总体表示中真正随机重新抽样意味着您必须进行替换抽样,否则您以后的抽样将取决于您最初抽样的结果。特定引导样本中重复病例的存在代表了基础总体中具有接近该特定重复病例特征的成员。正如您所建议的,也可以使用留一个或留几个方法,但这是交叉验证而不是引导。

我认为这几乎只是将@kjetil_b_halvorsen 的评论换成一句话