随机森林 VS LightGBM

数据挖掘 机器学习 随机森林 lightgbm
2021-10-07 14:50:21

随机森林 VS LightGBM

有人可以解释一下随机森林和 LightGBM 之间的详细区别吗?以及算法如何在幕后工作?

根据我对文档的理解:

LightGBM 和 RF 的不同之处在于树的构建方式:组合结果的顺序和方式。已经表明,如果仔细调整参数,GBM 的性能优于 RF。

随机森林: RF 使用数据的随机样本独立训练每棵树。这种随机性有助于使模型比单个决策树更健壮,并且不太可能过度拟合训练数据

我的问题是

  1. 什么时候会在梯度提升机器上使用随机森林?
  2. 与随机森林相比,使用梯度提升有哪些优点/缺点?
1个回答

与较新的 GBM 模型相比,RandomForest 的优势在于它易于调整并且对参数变化具有鲁棒性。尽管峰值性能可能不如经过适当调整的 GBM,但它对于大多数用例来说都是稳健的。另一个优点是你不需要太关心参数。您可以从其文档中比较随机森林模型和 lightgbm 的参数数量。在 sklearn 文档中,参数的数量可能看起来很多,但实际上您需要关心的唯一参数(按重要性排序)是 max_depth、n_estimators 和 class_weight,其他参数最好保持原样。所以对我来说,我很可能会使用随机森林来制作基线模型。

GBM 通常表现出更好的性能,尤其是在与随机森林进行比较时。特别是在将其与 LightGBM 进行比较时。与随机森林相比,经过适当调整的LightGBM 最有可能在性能和速度方面获胜。

GBM优势:

  • 更发达。为现代 GBM 模型(xgboost、lightgbm、catboost)开发了许多新功能,这些新功能会影响其性能、速度和可扩展性。

GBM的缺点:

  • 要调整的参数数量
  • 容易过拟合的倾向

请记住,增加随机森林和 gbm 的估计器数量意味着不同的行为。随机森林的 n_estimators 的高值会影响它的鲁棒性,而 GBM 模型将提高模型与您的训练数据的拟合度(如果太高将导致您的模型过度拟合)。