分类变量的处理:rpart vs tree

机器算法验证 分类数据 大车 算法 分类编码 rpart
2022-04-12 11:21:49

对于 R 中的 tree 和 randomForest 包,因子(作为分类变量)的级别数上限为 32。解释可能是每次拆分的比较次数变得非常高(大约 2^32)。为什么 rpart 仍然可以使用更大的因子。级别?

1个回答

在评论中部分回答:

我不知道全部原因,但 CART 使用了一个技巧来减少考虑的拆分数量。对于回归,分类预测变量的水平由结果的平均值代替;对于二元响应,级别被第 1 类结果的比例所取代(请参阅《统计学习要素》一书或链接了解原因)。对于分类预测变量,有一些近似值。我不知道为什么 randomForest 将其上限设置为 32。

——彼得·卡尔霍恩

有关一些替代想法,请参阅Python 中具有稀疏数据的随机森林回归