随机森林是否曾经将一个节点的分裂与一个**不同**节点的分裂进行比较?

机器算法验证 置信区间 随机森林 大车
2022-04-06 09:50:13

以为我了解如何将单个决策树构建为随机森林的一部分:

数据被递归拆分,直到满足某种停止条件。每个拆分都是通过优化目标函数的计算确定的。该目标函数的参数是沿其拆分的维度(变量/特征),以及沿该维度拆分的位置。

我的问题:在确定下一次拆分的位置时,节点是否曾经相互比较?例如,假设树中有两个节点处于同一级别,我们是否应该为每个节点找到最佳维度和最佳拆分位置,计算每个节点的误差度量,然后比较这些误差以确定哪个要使用的节点、维度和拆分位置?

我问原因是这篇文章为所谓的“置信度分裂”提出了一个论点,其前提是一个节点在其区域中具有少量数据点的误差可以与具有许多数据的节点的误差相同其区域内的点。这是因为gini-impurityentoropyscale-invariant(在“传统节点拆分标准”一节中进行了解释)。

但是,如果从不将一个节点的误差与另一个节点的误差进行比较,那么文章点就会过时,对吗?

1个回答

随机森林基于决策树的贪心归纳,这意味着要为树中的每个内部节点独立计算要分割的最佳属性和最佳截止值。因此,不直接比较节点

您引用的文章未指定可能在较少数量的点上引发分裂N如果一个属性有缺失值事实上,在他们的实验评估中,成人数据集存在缺失值。惩罚在具有缺失值的属性上引起的分裂是有意义的,他们这样做是基于置信区间定义一个新的分裂标准。

例如,假设您有以下数据集:

A B Class
1 ? +
3 4 -
4 6 +

这3点可以根据特征来拆分A在截止点 1 或 3 上,或根据特征B关于截止 3. 如果我们根据特征进行拆分B我们只考虑 2 点来计算分裂标准。如果我们按照B对于缺失值 ?,决定是否放置第一点是一个完全不同的故事:C4.5 使用权重,而 CART 使用代理拆分。

实际上,分裂标准偏差的话题在过去也受到了关注。您引用的博客文章没有引用任何以前的工作。我们采用了一种类似的方法,该方法根据统计显着性而不是使用置信区间来惩罚缺失值:这里然而,我们特别关注分类数据集,这是另一个可能的应用领域。使用统计显着性的积极方面是这种方法可以应用于原始基尼增益。因此它也适用于多类分类,而不仅仅是二元类。