如何解释 cv.glmnet() 图?

机器算法验证 r 交叉验证 解释 套索
2022-02-27 15:07:37

我执行了套索,然后留下一个交叉验证

cv<-cv.glmnet(df, df$Price, nfolds = 1500) 

当我绘制 cv 时,我得到以下信息: 在此处输入图像描述

我还注意到我得到了 2 个不同的 lambda:lambda.minlambda.1se

  • 这些 lambda 之间有什么区别?
  • 我可以从上面的图中总体了解什么(这些置信区间是什么,两条虚线是什么等)?

如果我改为nfolds=10执行 10 倍验证,我会得到lambda.1se这个 lambda 的不同系数。我可以根据什么标准选择最适合我的?

1个回答

这与统计无关,只是阅读文档。

  • 两种不同的价值观λ反映了两种常见的选择λ. λmin是最小化 CV 中样本外损失的方法。λ1se是最大的一个λ值在 1 个标准误差内λmin. 一种推理建议使用λ1se因为它通过选择更大的λ值比最小值。哪种选择最好取决于上下文。

  • 区间估计损失度量的方差(红点)。它们是使用 CV 计算的。

  • 竖线表示位置λminλ1se.

  • 顶部的数字是非零系数估计的数量。