套索图中曲线下面积的任何意义?

机器算法验证 回归 套索 网络
2022-03-15 16:45:19

以下图是使用 glmnet 包执行 LASSO 获得的:

在此处输入图像描述

在报告变量的重要性时,曲线下面积(使用 0 作为基线)是否有任何意义?我们可以说不同变量在预测因变量中的重要性是通过其曲线下面积来反映的吗?所以这里紫色和黑色变量可能同样重要。它们之后是(按降序排列)深蓝色、绿色、浅蓝色和红色变量。

1个回答

关于这件事,我立即想到了几件事。

我认为 spdrnl 是对的,由于标准化,效果大小应该是可比的。看起来可能是该图在原始变量的范围内,但我会检查哪个是真的,并使用标准化预测变量的系数图。

第一次观察。我想你会想要小心你的整合区域。假设最具预测性的模型与图中间某处然后对应于图左侧的模型是过拟合的,并且只是捕获数据中的噪声。您可能不想报告该区域。因此,就 lambda 而言,我建议整合:log(λ)

0λopt|βi(t)|

第二次观察。对于非单调系数路径,您将失去一些微妙之处。我在想你昨天的套索例子

在此处输入图像描述

在这里,面积方法将报告一些明确的意义cyl真正正确的是,这cyl对小型模型很重要,然后对于大型模型来说效果就会下降。面积方法没有捕捉到这一点。您可能希望通过关注这些有趣案例的评论或图片来补充您的面积测量。

最后,您必须选择在 x 轴上测量什么。选择是. 我倾向于后者,因为这是衡量分配给每个预测变量的总分配系数预算的多少。其他的只能通过拉格朗日乘数来解释,因此很难真正确定测量的是什么。λlog(λ)i|βi|