R中RandomForest中变量的重要性

数据挖掘 r 随机森林 集成建模
2022-02-19 15:45:52

我正在使用 varImpPlot() 来评估我的 rf 模型中变量的重要性,但我无法决定我必须从我的模型中删除哪些变量。我不确定“MeanDecreaseAccuracy”和“MeanDecreaseGini”之间的区别,我猜最后一个可以测量树节点的纯度,但作为我模型的一个例子:我有一个变量,它的 MeanDecreaseGini 约为 100同时 MeanDecreaseAccuracy 大约为零。!因此,我无法确定这个变量是好是坏。

1个回答

如果测量的特征尺度和/或类别数量不同,排列精度比 GINI 指数更可靠(Strob et al. 2007)。

然而,更好的是在运行随机森林之前使用 Boruta 所有相关变量选择来确定哪些变量与目标属性相关,哪些不相关。这允许您将数据集修剪为仅有用或相关的变量。

Strobl、Carolin、Anne-Laure Boulesteix、Achim Zeileis 和 Torsten Hothorn。“随机森林变量重要性度量中的偏差:插图、来源和解决方案。” BMC 生物信息学 8 (2007): 25.doi:10.1186/1471-2105-8-25。