机器算法验证 - 在 LASSO 中选择正则化参数的范围和网格密度 - 吾爱随笔录

在 LASSO 中选择正则化参数的范围和网格密度

机器算法验证套索正则化

2022-03-14 04:05:06

与此同时，我正在研究LASSO（最小绝对收缩和选择算子）。我看到可以通过交叉验证选择正则化参数的最佳值。我还在岭回归和许多应用正则化的方法中看到，我们可以使用 CV 来找到最佳正则化参数（比如惩罚）。现在我的问题是关于参数上限和下限的初始值以及如何确定序列的长度。

具体来说，假设我们有一个 LASSO 问题

L o g L i k e l i h o o d = (y - x β)^{'} (y - x β) + λ \sum | β |_{1}

$LogLikelihood = (y-x\beta)'(y-x\beta) + \lambda \sum|\beta|_1$ 我们想找到惩罚的最佳值，

λ

$\lambda$ . 那么我们如何选择下限和上限

λ \in [a = ?, b = ?]

$\lambda \in [a=?,b=?]$ ? 以及这两个值之间的分割数

\frac{(b - a)}{k = ?}

$\frac{(b-a)}{k=?}$ ?

1个回答

该方法在 glmnet 论文Regularization Paths for Generalized Linear Models via Coordinate Descent中进行了描述。虽然这里的方法是针对两者的一般情况 $L^1$ 和 $L^2$ 正则化，它应该适用于 LASSO（仅 $L^1$ ) 也是如此。

最大的解决方案 $\lambda$ 在第 2.5 节中给出。

什么时候 $\tilde\beta = 0$ ，我们从（5）中看到 $\tilde\beta_j$ 如果 $\frac{1}{N} | \langle x_j , y \rangle | < \lambda \alpha$ . 因此 $N \alpha \lambda_{max} = \max_l | \langle x_l , y \rangle |$

也就是说，我们观察到 beta 的更新规则强制所有参数估计为零 $\lambda > \lambda_{max}$ 如上所述。

的确定 $\lambda_{min}$ 并且网格点的数量似乎不太有原则。在 glmnet 他们设置 $\lambda_{min} = 0.001 * \lambda_{max}$ ，然后选择一个网格 $100$ 对数刻度上的等距点。

这在实践中效果很好，在我广泛使用 glmnet 时，我从未发现这个网格太粗糙。

在套索 ( $L^1$ ) 仅在情况下效果更好，因为LARS方法为各种预测变量何时进入模型提供了精确计算。真正的 LARS 不会进行网格搜索 $\lambda$ ，而是为系数的解路径生成精确表达式。下面详细介绍了两个预测变量情况下系数路径的精确计算。

非线性模型（即逻辑、泊松）的情况更加困难。在高层次上，首先在初始参数处获得损失函数的二次近似 $\beta = 0$ , 然后用上面的计算来确定 $\lambda_{max}$ . 在这些情况下，无法精确计算参数路径，即使仅当 $L^1$ 提供了正则化，因此网格搜索是唯一的选择。

样品重量也使情况复杂化，必须在适当的地方用称重的内积替换内积。

其它你可能感兴趣的问题

上一篇使用 LSTM 处理语言建模任务中的未知单词下一篇为什么 stl 函数使用随机数据给出显着的季节性变化