数据挖掘 - 何时以及如何使用 bagging？ - 吾爱随笔录

数据挖掘合奏

2022-02-15 23:41:31

所有类型的 ML 方法都可以从 bagging 中受益吗？决策树分类似乎总是装袋的首选示例，那么其他分类器或回归呢？

什么时候适合做套袋，如何挑选袋子的大小和数量？

更新：

我正在寻找数学上更严格的东西，例如，对于每个模型（单学习器），我们可以将其总估计误差分解为：

$Error^2 = Bias^2 + Variance^2 + Irreducible^2$

如果我们可以粗略估计 $Variance$ 以及所有单个学习器的预测之间的相关性，然后我们可以知道我们可以通过集成将方差推到多低。

1个回答

Bagging 的主要目标是最小化模型的方差。基本上，如果您的模型平均而言相当准确但不一致（这意味着它对于给定的数据集表现良好，泛化能力较差），那么 bagging 可能是一种产生更一致的估计量的方法。决策树是这方面的常见示例，因为它们是典型的高方差机器学习算法。

至于你的最后一个问题，每个新训练集的大小需要与原始训练集的大小相同。实现此目的的方法是对原始数据集进行随机抽样并进行替换（这意味着新数据集可能有重复）。新训练集的数量取决于问题。有时 100 就可以了，有时您需要 1000 左右。没有办法只知道您需要多少套。这是一个需要调整的参数。

其它你可能感兴趣的问题