我在互联网上研究了很多关于多类预测的文献,以找出在使用 RandomForest 方法时可以成功用于估计的类数量的实际限制。
关于文本挖掘的文献主体有时会提出非常多的类(>1000),而描述的大多数其他“经典”案例的类数少于 6-8。不过,它们中的大多数都描述了专门为特定问题设计的手工算法,而我对标准 RF 实现的性能(例如在 R 中)感兴趣。
我什至已经开始分析模拟数据以了解更多信息,但问题是生成模拟大量多个类但具有有意义和现实预测变量的数据。
我知道结果很大程度上取决于每个班级的观察次数以及班级结果之间的平衡。对于我的数据,我可以放心地假设每个班级会有足够的观察结果,以便我可以相应地平衡数据。
所以我很好奇人们是否已经将标准的 RandomForest 实现应用于类数 >>10 的多类问题。请注意,我不是在谈论将估计分成多个一对多的问题。
这里有没有人对这种数据有一些真实的经验?