子样本自举

机器算法验证 引导程序
2022-03-23 14:45:48

我一直在研究与从蒙特卡洛项目计算的数量相关的不确定性。通常我会通过替换重采样来使用引导方法,因为一些技术原因在这里并不是特别容易。有人建议我只是分解我的 MC 数据集并使用这些子集进行实验并以这种方式找到不确定性。我过去曾遇到过仅使用原始数据集的一个子集进行引导的参考。

有人可以向我指出一个关于此的教程或简要解释与替换引导和仅将样本数量设置为总大小的一小部分的不同之处。我会对一种方法特别感兴趣,这种方法意味着可能不同,这将使我的分析更加简单。n

1个回答

有两种方法与您的问题相关。一个是 n 个 bootstrap 中的 m 个,另一个是随机子采样。在他最初的提议中,Efron 选择了与原始样本大小相同的 bootstrap 样本大小。这样做没有具体要求,但其想法是尽可能地模仿人群中的随机抽样。但是,在某些情况下,这种普通的引导程序是不一致的。Bickel 和 Ren 等人表明,采用较小的样本量 m 可以产生一致的结果。这在 m 和 n 都趋于无穷大的情况下渐近地起作用,但其速率使 m/n 趋于 0。Hartigan 和 McCarthy 在 1960 年代后期引入了随机二次采样,大约比引导程序早了十年。它使用随机抽样原始样本子集的过程。

有关 m out of n bootstrap 的信息,您可以查阅我撰写/合着的以下任一书籍:

引导方法与 R 应用程序的介绍

引导方法:从业者和研究人员指南

Politis、Romano 和 Wolf 的这本书非常详细地介绍了随机二次抽样:

二次抽样