我正在 R 中构建一个随机森林模型。根据我的研究,我(希望)对它们的工作方式以及更重要的是它们的工作方式有了一些了解。
我只是想看到我对 RF 模型的理解在这里得到了交叉验证。
所以我们开始了(是真是假?):
- 在随机森林模型中不需要缩放。
- 在处理不平衡数据时,可以下采样/上采样/使用权重。然而,在包
randomForest中,选项 classwt 似乎不可靠?因此,我只是使用包 Unbalanced 对我的数据(50/50)进行下采样。在我的最终模型中,我将下采样并构建森林 K 次,并取预测的平均值。这是明智的吗? - 随机森林对高度相关的变量几乎没有问题。我对新功能有很多想法,并希望一次包含所有这些想法,并根据重要性(MeanDecreaseGini)选择性地决定省略一些。但是预测变量之间的相关性不会影响性能吗?换句话说:具有额外特征的模型将至少与具有较少变量的模型相似?