我以为我了解如何将单个决策树构建为随机森林的一部分:
数据被递归拆分,直到满足某种停止条件。每个拆分都是通过优化目标函数的计算确定的。该目标函数的参数是沿其拆分的维度(变量/特征),以及沿该维度拆分的位置。
我的问题:在确定下一次拆分的位置时,节点是否曾经相互比较?例如,假设树中有两个节点处于同一级别,我们是否应该为每个节点找到最佳维度和最佳拆分位置,计算每个节点的误差度量,然后比较这些误差以确定哪个要使用的节点、维度和拆分位置?
我问的原因是这篇文章为所谓的“置信度分裂”提出了一个论点,其前提是一个节点在其区域中具有少量数据点的误差可以与具有许多数据的节点的误差相同其区域内的点。这是因为gini-impurity和entoropy是scale-invariant(在“传统节点拆分标准”一节中进行了解释)。
但是,如果从不将一个节点的误差与另一个节点的误差进行比较,那么文章点就会过时,对吗?