可变重要性 randomForest 负值

机器算法验证 机器学习 特征选择 随机森林 重要性
2022-03-29 07:04:44

我问自己在回归上下文中删除那些具有负变量重要性值(“%IncMSE”)的变量是否是个好主意。如果它给了我一个更好的预测?你怎么看?

2个回答

随机森林中的变量重要性计算如下:

  1. 最初,模型的 MSE 是用原始变量计算的
  2. 然后,对单个列的值进行置换,并再次计算 MSE。例如,如果列 (Col1) 采用值 1、2、3、4,并且这些值的随机排列结果为 4、3、1、2。这导致了 MSE1。然后 MSE 的增加,即 MSE1 - MSE,将表明变量的重要性。

  3. 我们预计差异是正数,但在负数的情况下,它表示随机排列效果更好。可以推断该变量在预测中没有作用,即不重要。

希望这可以帮助!

详细解释请参考以下链接!

https://stackoverflow.com/questions/27918320/what-does-negative-incmse-in-randomforest-package-mean

这可能只是随机波动(例如,如果您的 ntree 很小)。

如果不是,它可能表明您的数据中有一些严重的悖论,即具有几乎相同的预测变量和非常不同的结果的对象对。在这种情况下,我会检查两次模型是否真的有意义,并开始思考如何获得更多属性来解决它们。