为什么 bagging 使用 bootstrap 样本?

机器算法验证 装袋
2022-03-06 17:38:13

Bagging 是在 N 个不同的 bootstrap 样本上创建 N 个学习器的过程,然后取其预测的平均值。

我的问题是:为什么不使用任何其他类型的采样?为什么使用引导样本?

1个回答

有趣的问题。与诸如折刀之类的替代方案相比,引导程序具有良好的采样特性。自举的主要缺点是每次迭代都必须使用与原始数据集一样大的样本(这可能在计算上很昂贵),而其他一些采样技术可以使用更小的样本。

本文认为,相对于基于 bootstrap 的 bagging,天真地减少样本量会降低性能,这将是不这样做的一个原因。本文还介绍了一种在 bagging 估计中使用较小样本的新方法,同时避免了这些问题。