Lasso 公式之间的联系

机器算法验证 套索
2022-02-28 06:12:00

这个问题可能很愚蠢,但我注意到Lasso回归有两种不同的表述。我们知道Lasso问题是最小化由平方损失加上L-1 惩罚项,表示如下,

minβyXβ22+λβ1

但我经常看到 Lasso 估计器可以写成

β^n(λ)=argminβ{12nyXβ22+λβ1}

我的问题是,是等价的吗?这个词是从哪里来的?12n这两种配方之间的联系对我来说并不明显。

[更新]我想我应该问的另一个问题是,

为什么会有第二种说法?以这种方式提出问题,在理论上或计算上有何优势?

1个回答

它们确实是等价的,因为您总是可以重新缩放(另请参阅@whuber 的评论)。从理论上讲,这是一个方便的问题,但据我所知,这不是必需的。从计算的角度来看,我实际上发现很烦人,所以如果我正在设计一个使用正则化的算法,我通常会使用第一个公式。λ1/(2n)

一点背景故事:当我第一次开始学习惩罚方法时,我对在工作中到处那时我的工作主要是计算。最近我一直在做理论工作,我发现是必不可少的(甚至与相比)。1/(2n)1/(2n)1/n

更多细节:当您尝试将 Lasso 的行为分析为样本大小归一化后分析这些总和通常更方便- - 想想大数定律/中心极限定理(或者如果你想花哨,集中测量和经验过程理论)。如果你在损失之前没有项,你最终会在分析结束时重新调整一些东西,所以从那里开始通常会更好。很方便,因为它消除了nn1/n1/22在分析中(例如,当您采用平方损失项的导数时)。

另一种思考方式是,在做理论时,我们通常对随着增加的解的行为感兴趣——也就是说,不是某个固定量。在实践中,当我们在某个固定数据集上运行 Lasso 时,从算法/计算的角度来看,确实是固定的。因此,将额外的标准化因子放在前面并不是那么有帮助。nnn

这些似乎是令人讨厌的方便问题,但在花足够的时间处理这些不平等之后,我学会了喜欢1/(2n)