与较新的 GBM 模型相比,RandomForest 的优势在于它易于调整并且对参数变化具有鲁棒性。尽管峰值性能可能不如经过适当调整的 GBM,但它对于大多数用例来说都是稳健的。另一个优点是你不需要太关心参数。您可以从其文档中比较随机森林模型和 lightgbm 的参数数量。在 sklearn 文档中,参数的数量可能看起来很多,但实际上您需要关心的唯一参数(按重要性排序)是 max_depth、n_estimators 和 class_weight,其他参数最好保持原样。所以对我来说,我很可能会使用随机森林来制作基线模型。
GBM 通常表现出更好的性能,尤其是在与随机森林进行比较时。特别是在将其与 LightGBM 进行比较时。与随机森林相比,经过适当调整的LightGBM 最有可能在性能和速度方面获胜。
GBM优势:
- 更发达。为现代 GBM 模型(xgboost、lightgbm、catboost)开发了许多新功能,这些新功能会影响其性能、速度和可扩展性。
GBM的缺点:
请记住,增加随机森林和 gbm 的估计器数量意味着不同的行为。随机森林的 n_estimators 的高值会影响它的鲁棒性,而 GBM 模型将提高模型与您的训练数据的拟合度(如果太高将导致您的模型过度拟合)。