据我了解,splitrule = “extratrees”包ranger中的选项是Geurts et al (2006)极其随机树的实现。
他们在论文中指出:
在每个树节点上,这与随机选择一定数量的属性相结合,其中确定了最好的一个。在极端情况下,该方法在每个节点处随机选取单个属性和切点,从而构建完全随机的树,其结构独立于学习样本的目标变量值。
如果我运行
ranger但splitrule = "extratrees"没有指定mtry,我会在结果对象中看到mtry = 8. 该算法是否还暗示mtry文章中所述的随机选择?在Wikipedia上有一小部分关于极其随机的树。与论文相比,它没有提到选择的特征数量是随机的,但可以指定,这与我在ranger中看到的一致。然后我想知道:然后我是否仍然可以在撰写论文时根据 Geurts 等人在 Ranger 中实现这种极其随机的树,或者这是默认树和极其随机树的“混合” ?
维基百科还说:
首先,使用整个学习样本(而不是引导样本)训练每棵树
尽管如此,我在ranger的 fit 对象中得到了袋外错误,在我的理解中,如果使用整个训练数据,这是不可能的。除非实际上仍然执行 bagging,否则只有交叉验证错误是可能的。
所以,基本上我的问题是:在ranger选项下究竟实现了什么splitrule = "extratrees",为什么它们偏离了原始论文?