为什么套索和随机森林之间存在差异?

机器算法验证 随机森林 套索 网络
2022-03-22 16:31:21

以下是 2 个图,其中一个使用 glmnet 包的套索和其他 2 个来自 mtcars 数据集的 randomForest(变量重要性)评估变量 mpg 与其他。在套索图中,蓝线和红线分别表示 lambda.min 和 lambda.1se。

在此处输入图像描述 在此处输入图像描述

randomForest 图高度重视 disp 和 hp,它们几乎在整个图中都接近于 0。am 在 randomForest 中的重要性也是最低的,尽管它在 lasso plot 中具有相对较高的价值。

这些差异的原因可能是什么?在确定此数据集中 mpg 的重要预测变量时,应该接受哪一个?

编辑:以上两个图都没有缩放。以下是缩放所有变量(包括 mpg,结果变量)后的图。

在此处输入图像描述 在此处输入图像描述

这些图更相似(wt、hp、cyl)。但是 disp 仍然存在差异。它在 randomForest 中最高,但在 lasso plot 中非常小。

1个回答

这可能是因为您正在测量两个不同的事物。套索系数本质上是效应大小,收缩有助于区分“零”效应和“非零”效应。随机森林模型中变量的重要性衡量了由于包含该变量而导致的预测准确性的提高。

所以你在比较苹果和橘子。一个公平的比较是在没有每个变量的情况下重新拟合两个模型,并计算由于省略每个变量而导致的 MSE 下降(即使用交叉验证或训练/测试拆分)。或者,您可以随机排列它,而不是丢弃每个预测器;%IndMSE是如何计算的

这个过程对于输入缩放应该是不变的,但是无论如何你通常应该缩放和居中你的输入。它有助于数值稳定性、迭代算法的收敛、矩阵求逆以及最重要的可解释性。