所有类型的 ML 方法都可以从 bagging 中受益吗?决策树分类似乎总是装袋的首选示例,那么其他分类器或回归呢?
什么时候适合做套袋,如何挑选袋子的大小和数量?
更新:
我正在寻找数学上更严格的东西,例如,对于每个模型(单学习器),我们可以将其总估计误差分解为:
如果我们可以粗略估计以及所有单个学习器的预测之间的相关性,然后我们可以知道我们可以通过集成将方差推到多低。
所有类型的 ML 方法都可以从 bagging 中受益吗?决策树分类似乎总是装袋的首选示例,那么其他分类器或回归呢?
什么时候适合做套袋,如何挑选袋子的大小和数量?
更新:
我正在寻找数学上更严格的东西,例如,对于每个模型(单学习器),我们可以将其总估计误差分解为:
如果我们可以粗略估计以及所有单个学习器的预测之间的相关性,然后我们可以知道我们可以通过集成将方差推到多低。
Bagging 的主要目标是最小化模型的方差。基本上,如果您的模型平均而言相当准确但不一致(这意味着它对于给定的数据集表现良好,泛化能力较差),那么 bagging 可能是一种产生更一致的估计量的方法。决策树是这方面的常见示例,因为它们是典型的高方差机器学习算法。
至于你的最后一个问题,每个新训练集的大小需要与原始训练集的大小相同。实现此目的的方法是对原始数据集进行随机抽样并进行替换(这意味着新数据集可能有重复)。新训练集的数量取决于问题。有时 100 就可以了,有时您需要 1000 左右。没有办法只知道您需要多少套。这是一个需要调整的参数。