集成学习中的 Bagging 与粘贴

数据挖掘 机器学习 方差 偏见 合奏 装袋
2021-10-12 05:41:58

这是来自 Aurelien Geron 的“Hands-on machine learning with Scikit-Learn, Keras and TensorFlow”的引文:

“Bootstrapping 在训练每个预测器的子集中引入了更多的多样性,因此 bagging 最终的偏差比粘贴略高,但这也意味着预测器最终的相关性降低,因此减少了集合的方差。”

我不明白为什么装袋与粘贴相比会导致更高的偏差和更低的方差。谁能提供一个直观的解释?

1个回答

假设我们有一组从 1 到 40 的 40 个数字。我们必须选择 10 个数字的 4 个子集。

案例 1 - Bagging -
我们将选择第一个号码,将其放回原处,然后再选择下一个号码。这使得所有的平局都是独立的,因此几乎没有相关性。
因此,如果您在前 10 个样本上创建一棵树,然后在下一个样本上创建另一棵树,那么这两棵树的相关性和方差都将很小(其中)(更独立的拆分)。
同时,由于替换选择,数据点将重复[ ~63% unique ] [Ref],这将增加个体树的偏差。

在 bagging 的情况下,样本大小等于数据集的大小,但我们只是创建了这个场景来将其与 Pasting 进行比较。


使用随机特征子集(即 RandomForest)进行拆分的逻辑相同。
对特定特征的拆分可能会导致相关的下一个拆分(总是)。因此,如果我们在每次拆分之前随机选择一个特征子集,那么这将进一步降低相关性。但同样,我们将增加偏差。

案例 2 - 粘贴-
在这里,由于没有替换的选择,每个样本中的数据点将是唯一的,这将导致单个树的偏差较小。