我们如何在 XGBoost、RandomForest 和决策树之间做出选择?

数据挖掘 机器学习 随机森林 决策树 xgboost
2021-10-12 12:44:01

在决定处理特定数据集时应该使用哪种技术时,我们会考虑什么?我知道对此没有任何硬性规定。我们是否仅在数据集中有很多特征时才使用 XGBoost,而在其他情况下使用 RandomForest?或者我们是否应该尝试并尝试找到每次都能让我们获得更好结果的那个?

1个回答

如果您希望能够解释结果来自何处,决策树非常有用,您通常可以打印树并查看您的模型是如何得出这个答案的。

随机森林也可以提供此类信息,但您必须浏览所有树木并在其中制作一些“统计信息”,这并不容易。但是随机森林通常比决策树给出更好的结果(除了简单和小型的数据集)。

最后,如果调整得当,XGBoost 可以给出比随机森林更好的结果,但你不能轻易解释它。如果您不介意结果解释,我建议您同时尝试 XGBoost 和 RandomForest,稍微调整一下,看看哪个最适合您的数据集。