数据挖掘 - 为什么梯度提升机 (GBM) 不使用维度采样？ - 吾爱随笔录

数据挖掘随机森林准确性 gbm 集成建模

2021-10-11 16:24:08

GBM 就像随机森林一样，在数据集的不同样本上构建每棵树，因此，按照集成模型的精神，产生更高的准确性。但是，我还没有看到 GBM 在树的每个拆分处都与维度采样一起使用，这在随机森林中是常见的做法。

是否有一些测试表明使用 GBM 进行尺寸采样会降低其准确性，因此无论是在文献形式还是在实践经验中都可以避免这种情况？

2个回答

sklearn 的GradientBoostingClassifier / GradientBoostingRegressor有一个max_features参数，而XGBoost有colsample_bylevel和colsample_bytree参数，用于控制为每棵树/拆分采样多少特征。

我从未在树的每个节点上阅读（或尝试过）子采样技术。我并不是说它们可能不存在，但是“就像是随机森林的常见做法”这样的说法看起来很奇怪。

除此之外，从随机森林中对每棵树的样本进行二次抽样或自举会产生随机梯度提升Friedman, 1999。与不使用子采样相比，它们提供了更好的结果，更多细节也在统计学习元素，第 358 页，10.12.2 子采样中给出。

其它你可能感兴趣的问题