机器算法验证 - 分类变量的处理：rpart vs tree - 吾爱随笔录

分类变量的处理：rpart vs tree

机器算法验证分类数据大车算法分类编码 rpart

2022-04-12 11:21:49

对于 R 中的 tree 和 randomForest 包，因子（作为分类变量）的级别数上限为 32。解释可能是每次拆分的比较次数变得非常高（大约 2^32）。为什么 rpart 仍然可以使用更大的因子。级别？

1个回答

在评论中部分回答：

我不知道全部原因，但 CART 使用了一个技巧来减少考虑的拆分数量。对于回归，分类预测变量的水平由结果的平均值代替；对于二元响应，级别被第 1 类结果的比例所取代（请参阅《统计学习要素》一书或链接了解原因）。对于分类预测变量，有一些近似值。我不知道为什么 randomForest 将其上限设置为 32。

——彼得·卡尔霍恩

有关一些替代想法，请参阅Python 中具有稀疏数据的随机森林回归

其它你可能感兴趣的问题

上一篇线性回归和每位员工的成本与总成本下一篇二维空间中的无监督异常值检测