为什么 Lasso 的近端梯度下降而不是普通的次梯度方法?

机器算法验证 机器学习 优化 套索 梯度下降
2022-03-24 18:27:37

我正在考虑通过香草次梯度方法解决套索。但我读过有人建议使用近端梯度下降。有人可以强调为什么 Lasso 使用近端 GD 而不是香草次梯度方法吗?

1个回答

使用次梯度方法确实可以找到套索的近似解。例如,假设我们要最小化以下损失函数:

f(w;λ)=yXw22+λw1

时惩罚项的梯度项在处不可微。相反,我们可以使用次梯度,它是相同的,但λwi<0λwi>00λsgn(w)0wi=0

损失函数对应的次梯度为:

g(w;λ)=2XT(yXw)+λsgn(w)

我们可以使用类似于梯度下降的方法最小化损失函数,但使用次梯度(它等于除之外的所有地方的梯度,其中梯度未定义)。该解决方案可能非常接近真正的套索解决方案,但可能不包含精确的零 - 其中权重应该为零,它们取而代之的是极小的值。这种缺乏真正的稀疏性是不使用 lasso 的次梯度方法的原因之一。专用求解器利用问题结构以计算有效的方式生成真正稀疏的解决方案。这个帖子0说,除了产生稀疏解决方案外,专用方法(包括近端梯度方法)比次梯度方法具有更快的收敛速度。他给出了一些参考。