来自套索的拉格朗日方程的 1/2

机器算法验证 套索
2022-03-15 07:16:38

我读过这本很棒的书《统计学习的要素》 ,我对Lagrangian 形式 的 Lasso 问题的 lasso 方程有疑问

β^lasso=argmin{12i=1N(yiβ0j=1pxijβj)2+λj=1p|βj|}

我不知道为什么12lasso 是必需的,但 ridge 则不需要。

β^ridge=argmin{i=1N(yiβ0j=1pxijβj)2+λj=1pβj2}

参考

  • Friedman, J.、Hastie, T. 和 Tibshirani, R. (2001)。统计学习的要素(第 1 卷,第 241-249 页)。纽约:Springer 统计系列。
2个回答

没有什么“必要”的因素 12. 为方便起见,它通常用于以下形式的二次目标12xTQx+gTx使得矩阵最终成为目标函数的 Hessian 矩阵。

在这种情况下,作者在这两个问题之间并不一致。的因素 12可以吸收(调整到)λ并导致一个等效的问题,即具有相同的 argmin(尽管不是相同的最佳目标值)。

因素12显然没有实际意义,只是重新调整。要看到这一点,只需将目标函数乘以2,那么 lasso 显然也解决了等价问题

βl一种ss参数分钟{一世=1n(是的一世-β0-j=1pX一世jβj)2+λ*j=1p|βj|}
在哪里λ*=2λ0. 由于 lasso 是一个凸优化问题,因此问题的解决方案将是相同的,而且它们之间存在一对一的关系λ*λ. 最后,两个等效最小化问题都转化为相同的约束最小化问题(只是不同λ的):
分钟β一世=1n(是的一世-β0-j=1pX一世jβj)2s..j=1p|βj|.

因素12只是为了方便而引入,即在套索的理论分析中简化写作。例如,KKT 条件会被很好地“缩放”,否则你会携带这个因素2在整个分析过程中,从二次和的导数中得出。