RandomForest 多类估计的最大类数

机器算法验证 机器学习 分类 随机森林 多级
2022-03-04 22:04:59

我在互联网上研究了很多关于多类预测的文献,以找出在使用 RandomForest 方法时可以成功用于估计的类数量的实际限制。

关于文本挖掘的文献主体有时会提出非常多的类(>1000),而描述的大多数其他“经典”案例的类数少于 6-8。不过,它们中的大多数都描述了专门为特定问题设计的手工算法,而我对标准 RF 实现的性能(例如在 R 中)感兴趣。

我什至已经开始分析模拟数据以了解更多信息,但问题是生成模拟大量多个类但具有有意义和现实预测变量的数据。

我知道结果很大程度上取决于每个班级的观察次数以及班级结果之间的平衡。对于我的数据,我可以放心地假设每个班级会有足够的观察结果,以便我可以相应地平衡数据。

所以我很好奇人们是否已经将标准的 RandomForest 实现应用于类数 >>10 的多类问题。请注意,我不是在谈论将估计分成多个一对多的问题。

这里有没有人对这种数据有一些真实的经验?

1个回答

我至少有一次这样做的经验。对于 NHTS 2017 数据集,我对许多变量进行了建模。值得注意的是,随机森林在预测每个家庭的车辆拥有量方面表现相当出色(使用大多数其他家庭级别的变量作为特征),在某种程度上优于 logit 模型(无论出于何种原因,它们都是旅行建模中的最新技术) . 这里有十几个班。

另一方面,建模个人的工作时间表(联合上班时间和下班时间)有大量的组合。经过一些数据预处理,有200多个类。就准确性而言,随机森林模型在这里的表现非常糟糕。对于具有优化的最大深度的 RF 模型,我获得了大约 20% 的准确度,对于逻辑回归,我得到了近 60% 的准确度。有趣的是,RF 模型的 log loss 仍然低于 Logistic 模型。

这些结果最终成为 TRB 的扩展摘要。您可以在此处阅读未付费的论文