我正在为我正在从事的项目探索不同的分类方法,并且有兴趣尝试随机森林。我正在努力自我教育,并感谢 CV 社区提供的任何帮助。
我已将数据拆分为训练/测试集。通过在 R 中对随机森林进行实验(使用 randomForest 包),我一直在为我的小班解决高误分类率问题。我读过这篇关于随机森林在不平衡数据上的性能的论文,作者提出了两种在使用随机森林时处理类不平衡的方法。
1.加权随机森林
2. 平衡随机森林
R 包不允许对类进行加权(从 R 帮助论坛中,我已阅读 classwt 参数未正常执行并计划作为未来的错误修复),所以我只剩下选项 2。我可以指定对于随机森林的每次迭代,从每个类中采样的对象数。
我对为随机森林设置相等的样本量感到不安,因为我觉得我会丢失太多关于更大类的信息,从而导致未来数据的性能不佳。对较大类进行下采样时的错误分类率有所提高,但我想知道是否还有其他方法可以处理随机森林中不平衡的类大小?