我问自己在回归上下文中删除那些具有负变量重要性值(“%IncMSE”)的变量是否是个好主意。如果它给了我一个更好的预测?你怎么看?
可变重要性 randomForest 负值
机器算法验证
机器学习
特征选择
随机森林
重要性
2022-03-29 07:04:44
2个回答
随机森林中的变量重要性计算如下:
- 最初,模型的 MSE 是用原始变量计算的
然后,对单个列的值进行置换,并再次计算 MSE。例如,如果列 (Col1) 采用值 1、2、3、4,并且这些值的随机排列结果为 4、3、1、2。这导致了 MSE1。然后 MSE 的增加,即 MSE1 - MSE,将表明变量的重要性。
我们预计差异是正数,但在负数的情况下,它表示随机排列效果更好。可以推断该变量在预测中没有作用,即不重要。
希望这可以帮助!
详细解释请参考以下链接!
https://stackoverflow.com/questions/27918320/what-does-negative-incmse-in-randomforest-package-mean
这可能只是随机波动(例如,如果您的 ntree 很小)。
如果不是,它可能表明您的数据中有一些严重的悖论,即具有几乎相同的预测变量和非常不同的结果的对象对。在这种情况下,我会检查两次模型是否真的有意义,并开始思考如何获得更多属性来解决它们。
其它你可能感兴趣的问题