我的问题:为什么随机森林会考虑在每棵树的节点级别而不是树级别进行拆分的随机特征子集?
背景:这是一个历史问题。1998 年, Tin Kam Ho 发表了这篇关于通过随机选择特征子集来构建“决策森林”的论文,以用于生长每棵树。几年后,在 2001 年,Leo Breiman 发表了他的开创性随机森林论文,其中特征子集是随机的在每棵树的每个节点上选择,而不是在每棵树上。虽然 Breiman 引用了 Ho,但他没有具体解释从树级到节点级随机特征选择的转变。
我想知道是什么特别推动了这一发展。似乎在树级别选择特征子集仍然可以实现所需的树去相关。
我的理论:我还没有在其他地方看到这一点,但似乎随机子空间方法在估计特征重要性方面效率较低。为了获得变量重要性的估计,对于每棵树,特征被一一随机排列,并记录袋外观察的错误分类增加或误差增加。由这种随机排列导致的错误分类或误差增加较高的变量是最重要的变量。
如果我们使用随机子空间方法,对于每棵树,我们只考虑个特征个。甚至可能需要几棵树来考虑所有个预测变量。另一方面,如果我们在每个节点个特征,我们将在更少的树之后更多次地考虑每个特征,从而为我们提供对特征重要性的更稳健的估计。
到目前为止我所看到的:到目前为止,我已经阅读了 Breiman 的论文和 Ho 的论文,并在网上广泛搜索了这些方法的比较,但没有找到明确的答案。请注意,之前有人问过类似的问题。这个问题更进一步,包括我对可能解决方案的推测/工作。我会对比较这两种方法的任何答案、相关引用或模拟研究感兴趣。如果没有,我计划运行我自己的模拟来比较这两种方法。