机器算法验证 - 如何找到最小的λλ使得所有 Lasso / Elastic Net 系数都为零？ - 吾爱随笔录

如何找到最小的λλ使得所有 Lasso / Elastic Net 系数都为零？

机器算法验证回归机器学习套索网络弹性网

2022-04-08 00:17:23

在 R 的 glmnet 包的文档中，它指出当拟合弹性网络时，glmnet 函数将使用一系列值，从所有系数为零 $\lambda$ 的最小 $\lambda$ 我怎样才能找到这样的 $\lambda$ 值？

2个回答

套索解 $\widehat{\beta}(\lambda)$ 求解

min_{β} \frac{1}{2} | | y - X β | |_{2}^{2} + λ | | β | |_{1} .

$\min_\beta \frac{1}{2}||y-X\beta||_2^2 +\lambda||\beta||_1.$ 众所周知，对于所有的

其中

，它应该给你想要的值。

\hat{β} (λ) = 0

$\widehat{\beta}(\lambda)=0$

λ \geq λ_{1}

$\lambda \geq \lambda_1$

λ_{1} = max_{j} | X_{j}^{T} y |

$\lambda_1 = \max_j |X_j^Ty|$

请注意，如果目标函数的缩放比例不同， $\lambda_1$

使用带有 GLMNET 的汽车示例：

fit<-glmnet(as.matrix(mtcars[,-1]),mtcars[,1], intercept=FALSE, standardize=FALSE) 1/32*max(abs(t(as.matrix(mtcars[,-1]))%*%mtcars[,1]))/(head(fit$lambda))[1]

正如预期的那样，这给出了值 1。

请注意，标准化和截距都设置为 FALSE。如果标准化和截距设置为 TRUE，则的值是在缩放回归量上计算的。（在这方面，请查看https://think-lab.github.io/d/205/#5，了解如何执行适当的缩放以获得您想要的结果。）： $\lambda$

xy<-scale(mtcars) fit<-glmnet(as.matrix(mtcars[,-1]),mtcars[,1]) (1/32*max(abs(t(xy[,-1])%*%mtcars[,1]*sqrt(32/31))))/(head(fit$lambda))[1]

这再次给出了值 1 ...

但是，如果拦截 = TRUE 但标准化 = FALSE，我不确定 glmnet 正在计算什么。

我们看到带有标准选项的 glmnet 计算为, 其中 $\lambda_{1}$

λ_{1} = max_{j} | \frac{1}{n} \sum_{i = 1}^{n} x_{j}^{*} y |

$\lambda_{1} = \max_j| \frac{1}{n} \sum_{i=1}^n x_j^*y|$

x_{j}^{*} = \frac{x_{j} - \bar{x_{j}}}{\sqrt{\frac{1}{n} \sum_{i = 1}^{n} (x_{j} - \bar{x_{j}})^{2}}} .

$x_j^* = \frac{x_j-\overline{x_j}}{\sqrt{\frac{1}{n}\sum_{i=1}^n (x_j-\overline{x_j})^2}}.$

事实证明，对于弹性网络问题（对应 )，其最大值计算为 $\alpha \in (0,1]$ $\lambda_{1,\alpha}$

λ_{1, α} = λ_{1} / α

$\lambda_{1,\alpha}= \lambda_{1}/\alpha$ 。

实际上，例如设置我们有： $\alpha=0.3$

aa<-0.3 xy<-scale(mtcars) fit<-glmnet(as.matrix(mtcars[,-1]),mtcars[,1],a=aa) 1/aa*(1/32*max(abs(t(xy[,-1])%*%mtcars[,1]*sqrt(32/31))))/(head(fit$lambda))[1]

这再次导致输出值。 $1$

那是为了计算。但是请注意，弹性网络标准可以重写为标准套索问题。

首先，我认为glmnet将从大的而不是小的开始。这是文档：注意，如果我们想指定，最好按降序排列。 $\lambda$ $\lambda$ $\lambda$

典型的用法是让程序根据 nlambda 和 lambda.min.ratio 计算自己的 lambda 序列。提供 lambda 值会覆盖此值。警告：小心使用。不要为 lambda 提供单个值（对于 CV 之后的预测，请改用 predict()）。而是提供递减的 lambda 值序列。glmnet 依赖于它的暖启动速度，而且它通常更快地适应整个路径而不是计算单个适应。

另外，请参阅我的问题：为什么 `R` `glmnet` 需要以降序运行？ $\lambda$

拟合结果包含使用的 lambda 值。这是一个例子。

library(glmnet)
fit=glmnet(as.matrix(mtcars[,-1]),mtcars[,1])
head(fit$lambda)
[1] 5.146981 4.689737 4.273114 3.893502 3.547614 3.232454

其它你可能感兴趣的问题

上一篇为什么 softmax 回归经常在没有偏差项的情况下编写？下一篇决策边界的方程是如何确定的？