Bagging的主要思想

机器算法验证 数据挖掘 装袋
2022-03-17 04:25:18

我刚刚阅读了这篇文章和其他几个网站,但我仍然不明白什么是 bagging。

我理解它是一种机器学习算法,它提高了算法的稳定性和准确性,并减少了我的预测方差,但是这个算法背后的主要思想是什么?是将数据集放入包中吗?

例如,对我来说,提升背后的主要思想是提升权重不正确的记录。

1个回答

自举是统计学中的一个概念,通过从给定大小的样本中重复抽样来近似统计的抽样分布n. 我们构建B样品,每个大小n,通过从原始样本中替换抽样。计算每个感兴趣的统计数据B样品。对于足够大B,我们对统计数据的分布方式有一个很好的了解。粗略地说,这种分布表示统计值的范围以及这些值的密集程度。

Bagging或 Bootstrap AGgregating 是 bootstrap 对分类和回归问题的扩展。主要思想是从训练数据中进行替换采样,这样我们现在就有了B训练数据集,每个都有nn观察。机器学习算法在每个B数据集组成一个委员会在预测(或分类)未来的测试观察时,我们要求委员会中每个经过训练的算法进行预测。然后我们计算一个(加权)平均值B预测以获得单个预测。

最简单的方法是对每个B委员会成员平等。然而,有几种变体可以减少不太可靠的委员会成员的权重(例如,分类准确性差、存在多个异常值等)。