sklearn 随机森林和具有连续特征的拟合

数据挖掘 随机森林
2022-02-26 09:27:20

有谁知道python sklearn随机森林实现如何在拟合过程中处理连续变量?我很想知道它是否进行任何类型的分箱(如果是,它是如何进行分箱的),或者是否将连续变量仅视为分类变量?我希望不是后者……谢谢!另外,如果有人知道的话,我愿意使用一些 R 实现。

1个回答

要了解随机森林如何处理连续数据,必须了解随机森林的工作原理。随机森林算法的基础是树结构。sklearn 中的默认设置是根据基尼系数拆分树(请参阅sklearn 文档)。这种类型的树算法称为 CART 树。您可以将 更改criterionentropy选择 ID3 和 C4.5 树。在不深入数学的情况下,树算法将寻求基于导致最低基尼系数的截止值来分割树。

随机森林算法将在您的数据上构建大量深度树,并对所有经过训练的树进行平均,从而为您提供最终预测。

根据您对数据大小和并行化必要性的要求,我强烈推荐 H2O。它是一个开源机器学习软件套件,带有 Python 和 R 中的 API。它们的随机森林实现非常快,并导致模型具有更高的 AUC(有关不同 ML 库之间的良好比较,请参阅此页面)。