关于 LASSO 的文献,ℓqℓqq< 1q<1

机器算法验证 回归 套索 正则化
2022-04-08 23:40:31

我不确定如何 -LASSO,但这里我说的是 LASSO 回归,使用正则化,q< 1在流行文学中,例如Hastie 等人的《统计学习要素》《稀疏统计学习》 。al.,我只能通过一些图表找到它们的粗略定义,并评论它们的非凸性如何使估计它变得麻烦且计算效率低下。qβqq<1

但是,我对该方法的更深入讨论感兴趣,例如它的 Oracle 属性、关于变量选择和参数估计的渐近行为,以及该方法不起作用的各种情况。到目前为止,我已经在 Monte Carlo 实验中手动测试了简单的案例,发现它在各种情况下都能够以显着的优势胜过1 LASSO,因此我认为那里应该有强大的属性在起作用。也就是说,我想了解为什么它对我很有效。

我的问题

  1. 这种方法是否有正式名称以便于文献检索?

  2. 如果您有任何指向已证明属性的论文的链接,它们对于进一步阅读将非常有用。

  3. 我对反例也很感兴趣,那将能够打破方法。(我无法自己构建它们,因为我无法找到假设,例如,q -lasso 将保证一致的变量选择)。例如,使用1 -lasso,众所周知,显着的多相关很容易破坏一致的变量选择。同时,我发现q -lasso 能够毫无问题地处理相同的示例。

注意:我在问题中提到的变量选择仅作为示例,其他属性也很有趣。

1个回答

Frank & Friedman (1993)提出了桥估计的想法,用惩罚函数作为理解子集选择和岭回归的范例。 -norm对应于子集选择方法,是 LASSO,是岭回归。他们指出,同时估计参数以扩大可能模型的选择范围是有益的,但没有进一步开发该方法。参数控制估计的大小()或收缩量,而PB=λj|αj|γ012λγλα^jBγ参数确定参数相对于坐标轴对齐的方向。

γ(0,1)

  • 惩罚函数是凹函数。下图显示了凹惩罚函数(虚线)与 LASSO 惩罚函数(实线)的对比。 PB=λj|αj|γ惩罚功能

  • 一些参数设置为零,收缩与参数的大小成反比。该图显示了阈值函数,其中是 OLS 估计值。在这里,当时,大参数几乎没有受到收缩的影响。使用 LASSO(实线),收缩是恒定的。 α^jsign(α^j)λγ|α^j|γ1α^jλ=4γ=0.25γ=0.5阈值函数

  • 估计很可能发生在轴上。该图显示了(左)和(右)对于的规范球。 R2R3γ=0.5标准球

请参阅Kirkland (2014)的第 118-119 和 126-127 页,将这些数字与的其他值进行比较。本硕士论文还概述了其他收缩方法。γ

Knight & Fu (2000)表明桥接估计是一致的并且具有渐近正态分布。

凹惩罚函数背后的主要思想是对大参数的惩罚较少,因此得到的估计值几乎是无偏的。我知道其他 2 种利用凹面惩罚的收缩方法,您可能会感兴趣:

  • Fan & Li (2001)提出了 SCAD,这是第一个具有 oracle 属性的收缩方法。尽管自适应 LASSO 是预言机,但使用 SCAD 时偏差可能会以更快的速度减小。

  • Zhang (2010)提出了 MCP,它遵循与 SCAD 类似的方法,但对较小参数的惩罚较少。

尽管具有在零处也是不可微分的凹惩罚,但它们都提供了用于计算解的有效算法,即使在时的高维设置中也是如此。pn