给定训练数据,可以为树选择多种集成方法。这些算法输出一组树,然后预测是他们的平均值:
在书里:
https://www.amazon.com/Ensemble-Methods-Data-Mining-Predictions/dp/1608452840
作者建议使用线性回归对 Adaboost 进行后处理,他们见证了整体性能的提高。也就是说,他们建议使用新的训练数据进行线性回归:
然后使用结果系数而不是系数对于不同的树。
这本书写于 2010 年,据我所知,XGBoost 确实允许这种后期处理。所以我想知道发生了什么:
- 是不是发现这种方法在很大程度上没有帮助?
- 是不是这种方法还不够知名?
- 或者——这种方法是否一直在使用而我只是不知道?