对于 R 中的 tree 和 randomForest 包,因子(作为分类变量)的级别数上限为 32。解释可能是每次拆分的比较次数变得非常高(大约 2^32)。为什么 rpart 仍然可以使用更大的因子。级别?
分类变量的处理:rpart vs tree
机器算法验证
分类数据
大车
算法
分类编码
rpart
2022-04-12 11:21:49
1个回答
在评论中部分回答:
我不知道全部原因,但 CART 使用了一个技巧来减少考虑的拆分数量。对于回归,分类预测变量的水平由结果的平均值代替;对于二元响应,级别被第 1 类结果的比例所取代(请参阅《统计学习要素》一书或链接了解原因)。对于分类预测变量,有一些近似值。我不知道为什么 randomForest 将其上限设置为 32。
——彼得·卡尔霍恩
有关一些替代想法,请参阅Python 中具有稀疏数据的随机森林回归
其它你可能感兴趣的问题