机器算法验证 - 为什么套索和随机森林之间存在差异？ - 吾爱随笔录

以下是 2 个图，其中一个使用 glmnet 包的套索和其他 2 个来自 mtcars 数据集的 randomForest（变量重要性）评估变量 mpg 与其他。在套索图中，蓝线和红线分别表示 lambda.min 和 lambda.1se。

在此处输入图像描述

randomForest 图高度重视 disp 和 hp，它们几乎在整个图中都接近于 0。am 在 randomForest 中的重要性也是最低的，尽管它在 lasso plot 中具有相对较高的价值。

这些差异的原因可能是什么？在确定此数据集中 mpg 的重要预测变量时，应该接受哪一个？

编辑：以上两个图都没有缩放。以下是缩放所有变量（包括 mpg，结果变量）后的图。

在此处输入图像描述

这些图更相似（wt、hp、cyl）。但是 disp 仍然存在差异。它在 randomForest 中最高，但在 lasso plot 中非常小。