数据挖掘 - 集成学习中的 Bagging 与粘贴 - 吾爱随笔录

集成学习中的 Bagging 与粘贴

数据挖掘机器学习方差偏见合奏装袋

2021-10-12 05:41:58

这是来自 Aurelien Geron 的“Hands-on machine learning with Scikit-Learn, Keras and TensorFlow”的引文：

“Bootstrapping 在训练每个预测器的子集中引入了更多的多样性，因此 bagging 最终的偏差比粘贴略高，但这也意味着预测器最终的相关性降低，因此减少了集合的方差。”

我不明白为什么装袋与粘贴相比会导致更高的偏差和更低的方差。谁能提供一个直观的解释？

1个回答

假设我们有一组从 1 到 40 的 40 个数字。我们必须选择 10 个数字的 4 个子集。

案例 1 - Bagging -
我们将选择第一个号码，将其放回原处，然后再选择下一个号码。这使得所有的平局都是独立的，因此几乎没有相关性。
因此，如果您在前 10 个样本上创建一棵树，然后在下一个样本上创建另一棵树，那么这两棵树的相关性和方差都将很小（其中）（更独立的拆分）。
同时，由于替换选择，数据点将重复[ ~63% unique ] [Ref]，这将增加个体树的偏差。

在 bagging 的情况下，样本大小等于数据集的大小，但我们只是创建了这个场景来将其与 Pasting 进行比较。

使用随机特征子集（即 RandomForest）进行拆分的逻辑相同。
对特定特征的拆分可能会导致相关的下一个拆分（总是）。因此，如果我们在每次拆分之前随机选择一个特征子集，那么这将进一步降低相关性。但同样，我们将增加偏差。

案例 2 - 粘贴-
在这里，由于没有替换的选择，每个样本中的数据点将是唯一的，这将导致单个树的偏差较小。

其它你可能感兴趣的问题

上一篇异常值/异常检测历史下一篇LSTM：时间序列预测中的多对一和多对多