是否应该避免对 bagging 进行修剪(使用决策树)?

机器算法验证 引导程序 大车 装袋
2022-03-22 20:05:19

我看到了几篇文章和论文,声称不需要在“装袋”的树木群中修剪树木(见1)。

但是,对集合中的单个树执行修剪(例如,使用 OOB 样本)是否必然(或至少在某些已知情况下)有害?

谢谢!

1个回答

塔尔,

一般来说,修剪会损害袋装树的性能。

Tress 是不稳定的分类器;这意味着如果您稍微扰乱数据,树可能会发生显着变化。它们是低偏差但高方差的模型。Bagging 通常通过“复制”模型来降低方差(旧的“增加样本量”技巧)。

但是,如果您最终对非常相似的模型进行平均,那么您不会获得太多收益。如果树木未修剪,它们之间的差异往往比修剪时更大。这具有“去相关”树的效果,以便您对不太相似的树进行平均。这也是随机森林添加随机预测器选择的额外调整的原因。这迫使树木变得非常不同。

使用未修剪的树会增加过度拟合的风险,但模型平均会抵消这一点(一般来说)。

高温下,

最大限度