我实际上正在编写随机森林的实现,但我相信这个问题特定于决策树(独立于 RF)。
所以上下文是我在决策树中创建一个节点,并且预测变量和目标变量都是连续的。该节点有一个分割阈值,可以将数据分成两组,我根据每组中的平均目标值为每个子集创建一个新的预测。这是正确的方法吗?
我问的原因是,在预测二进制变量时,我相信典型的(正确的?)方法是将数据分成 0 和 1 个子集,而不对每个子集中的数据行取平均值。随后的拆分将划分为更细粒度的子集,并在每个拆分结果中取平均值随后的拆分(决策树的下方)对现在的连续变量而不是二元变量进行操作(因为我们正在对残差值而不是原始变量进行操作)目标)。
附带问题:这两种方法(二元与连续)之间的区别是否显着 - 或者它们实际上是否会为完整的决策树提供相同的结果?