随机森林清单

机器算法验证 r 随机森林
2022-03-29 09:41:30

我正在 R 中构建一个随机森林模型。根据我的研究,我(希望)对它们的工作方式以及更重要的是它们的工作方式有了一些了解。

我只是想看到我对 RF 模型的理解在这里得到了交叉验证。

所以我们开始了(是真是假?):

  • 在随机森林模型中不需要缩放。
  • 在处理不平衡数据时,可以下采样/上采样/使用权重。然而,在包randomForest中,选项 classwt 似乎不可靠?因此,我只是使用包 Unbalanced 对我的数据(50/50)进行下采样。在我的最终模型中,我将下采样并构建森林 K 次,并取预测的平均值。这是明智的吗?
  • 随机森林对高度相关的变量几乎没有问题。我对新功能有很多想法,并希望一次包含所有这些想法,并根据重要性(MeanDecreaseGini)选择性地决定省略一些。但是预测变量之间的相关性不会影响性能吗?换句话说:具有额外特征的模型将至少与具有较少变量的模型相似?
1个回答
  1. 不需要缩放;RF 训练对于预测变量的所有单调变换组合是不变的。
  2. classwt不可靠;射频和不平衡数据说来话长,请尝试浏览网站或询问更详细的问题。
  3. RF 不应该对相关预测变量有任何问题(前提是您有足够的树)。通过删除具有最小 DecreaseGini 的变量来优化模型可能是不稳定的,因此非常棘手 - 请记住,您需要进行交叉验证和适当的测试以检测某些变量对模型性能的显着影响,它们本身的重要性度量不是足够的。