对于提升算法,我会说它们进化得很好。1995 年初引入了 AdaBoost,然后是梯度提升机 (GBM)。最近,在 2015 年左右引入了 XGBoost,它准确、处理过拟合,并成为多个 Kaggle 比赛的赢家。2017 年微软推出 LightGBM,与 XGBoost 相比,它提供的训练时间显着缩短。此外,Yandex 引入了 CatBoost 来处理分类特征。
随机森林是在 2000 年代初推出的,但它有没有值得继承的继任者?我认为如果存在比随机森林更好的 bagging 算法(可以在实践中轻松应用),它会在像 Kaggle 这样的地方引起一些关注。另外,为什么提升成为更流行的集成技术,是因为你可以构建更少的树来实现最佳预测?