自举的优点和缺点

机器算法验证 方差 引导程序 偏见
2022-02-07 08:42:45

我刚刚了解了 bootstrapping 的概念,想到了一个天真的问题:如果我们总是可以生成大量数据的 bootstrap 样本,为什么还要费心去获取更多“真实”的数据呢?

我确实认为我有一个解释,请告诉我我是否正确:我认为引导过程减少了方差,但是如果我的原始数据集是有偏差的,那么无论有多少副本,我都会陷入低方差和高偏差我在拿。

2个回答

bootstrap 是一种以不需要为总体分布假设参数形式的方式进行推理的方法。它不会将原始样本视为总体,即使它涉及对原始样本进行替换抽样。它假设从大小为 n 的原始样本中进行带放回抽样模拟了从更大的总体中抽取大小为 n 的样本。它还有许多变体,例如 m out of n bootstrap,它从大小为 n 的样本中重新采样 m 次,其中 m < n。bootstrap 的良好特性取决于渐近理论。正如其他人所提到的,引导程序不包含比原始样本中给出的更多信息。出于这个原因,它有时在小样本中效果不佳。

在 Wiley 于 2007 年出版的《引导方法:实践者指南》第二版一书中,我指出了引导可能失败的情况。这包括不具有有限矩的分布、小样本量、从分布估计极值以及在总体规模为 N 且采用大样本 n 的情况下估计调查抽样中的方差。在某些情况下,引导程序的变体可以比原始方法更好地工作。在某些应用程序中,m out of n bootstrap 会发生这种情况在估计判别分析中的错误率的情况下,632 bootstrap 是对包括其他 bootstrap 方法在内的其他方法的改进。

使用它的一个原因是,有时您不能依赖参数假设,并且在某些情况下,bootstrap 比其他非参数方法效果更好。它可以应用于各种各样的问题,包括非线性回归、分类、置信区间估计、偏差估计、p 值调整和时间序列分析等等。

引导样本只能告诉您有关原始样本的信息,而不会为您提供有关真实人口的任何新信息。它只是一种用于构建置信区间等的非参数方法。

如果您想获得有关人口的更多信息,则必须从人口中收集更多数据。