1)直接调用对偶性,你走错了方向。要从
arg minβ:∥β∥1≤t∥y−Xβ∥22
至
arg minβ∥y−Xβ∥22+λ∥β∥1
你只需要调用拉格朗日乘数。(参见,例如[1] 的第 5.1 节)
LM 在教学时经常在对偶的背景下进行讨论,但在实践中,您可以直接从一个切换到另一个,而不考虑对偶问题。
如果您对套索的对偶问题感兴趣,请参阅 [2] 的幻灯片 12 和 13
2) 你可能看到的是 Lasso 的 KKT Stationarity 条件:
arg min12∥y−Xβ∥22+λ∥β∥1⟺−XT(y−Xβ^)+λs=0 for some s∈∂∥β^∥1
其中称为范数的次微分。(这本质上只是微积分的标准“导数至少为零”条件,但已针对不可微性进行了调整。)∂∥β∥1ℓ1
我们知道 if所以如果我们知道解的支持和符号,这个方程给出了套索的精确闭式解。即,|βi|=sign(βi)βi≠0
β^S^=(XTS^XS^)−1(XTS^y−λ∗sign(β^S^))
(除此之外:此解决方案使套索的“收缩”效果(与 OLS 相比)非常明显。)
当然,解决套索的难点在于找到解决方案的支持和迹象,所以这在实践中并不是很有帮助。
然而,它是一个非常有用的理论结构,可以用来证明套索的许多好的特性;最重要的是,它让我们可以使用“原始双重见证”技术来建立套索恢复“真实”变量集的条件。参见 [3] 的第 11.4 节。
[1] S. Boyd 和 L. Vandenberghe。凸优化。可在https://web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf获得
[2] http://www.stat.cmu.edu/~ryantibs/convexopt-F15/lectures/13-dual-corres.pdf
[3] T. Hastie、R. Tibshirani、M. Wainwright。稀疏的统计学习:套索和概括。可在https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS_corrected_1.4.16.pdf获得