数据挖掘 - 随机森林 VS LightGBM - 吾爱随笔录

随机森林 VS LightGBM

数据挖掘机器学习随机森林 lightgbm

2021-10-07 14:50:21

随机森林 VS LightGBM

有人可以解释一下随机森林和 LightGBM 之间的详细区别吗？以及算法如何在幕后工作？

根据我对文档的理解：

LightGBM 和 RF 的不同之处在于树的构建方式：组合结果的顺序和方式。已经表明，如果仔细调整参数，GBM 的性能优于 RF。

随机森林： RF 使用数据的随机样本独立训练每棵树。这种随机性有助于使模型比单个决策树更健壮，并且不太可能过度拟合训练数据

我的问题是

什么时候会在梯度提升机器上使用随机森林？
与随机森林相比，使用梯度提升有哪些优点/缺点？

1个回答

与较新的 GBM 模型相比，RandomForest 的优势在于它易于调整并且对参数变化具有鲁棒性。尽管峰值性能可能不如经过适当调整的 GBM，但它对于大多数用例来说都是稳健的。另一个优点是你不需要太关心参数。您可以从其文档中比较随机森林模型和 lightgbm 的参数数量。在 sklearn 文档中，参数的数量可能看起来很多，但实际上您需要关心的唯一参数（按重要性排序）是 max_depth、n_estimators 和 class_weight，其他参数最好保持原样。所以对我来说，我很可能会使用随机森林来制作基线模型。

GBM 通常表现出更好的性能，尤其是在与随机森林进行比较时。特别是在将其与 LightGBM 进行比较时。与随机森林相比，经过适当调整的LightGBM 最有可能在性能和速度方面获胜。

GBM优势：

更发达。为现代 GBM 模型（xgboost、lightgbm、catboost）开发了许多新功能，这些新功能会影响其性能、速度和可扩展性。

GBM的缺点：

要调整的参数数量
容易过拟合的倾向

请记住，增加随机森林和 gbm 的估计器数量意味着不同的行为。随机森林的 n_estimators 的高值会影响它的鲁棒性，而 GBM 模型将提高模型与您的训练数据的拟合度（如果太高将导致您的模型过度拟合）。

其它你可能感兴趣的问题

上一篇如何为聚类进行特征选择并在python中实现？下一篇过拟合问题