随机森林中的特征选择

数据挖掘 特征选择 随机森林
2022-03-02 09:13:08

我了解随机森林正在建立一个具有多个决策树的模型,

  1. 行抽样基于自举

我的问题是每棵树的特征选择是如何发生的?

任何帮助,将不胜感激。

1个回答

一个随机的特征子集,而不是像在普通树中那样使用最佳分割逻辑

随机森林算法在种植树木时引入了额外的随机性;它不是在分割节点时搜索最佳特征,而是在随机特征子集中搜索最佳特征。该算法导致更大的树多样性,这(再次)用更高的偏差换取更低的方差,通常会产生整体更好的模型。

在此处输入图像描述
图片来源 - SE(https://stats.stackexchange.com/a/438384/256691) - Ashish Anand


Extra-trees -
通过使用随机阈值而不是搜索最佳分割来获取特征来获得更多随机性。

当您在随机森林中生长一棵树时,在每个节点处,仅考虑将特征的一个随机子集进行拆分。通过为每个特征使用随机阈值而不是搜索最佳阈值(就像常规决策树一样),可以使树更加随机

我用Extra-tree来说明点有对比。它有助于抓住重点。
另请阅读图片的 SE 链接


[Blockquote ref] - Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition