为什么我们只看到大号1L1和大号2L2正则化而不是其他规范?

机器算法验证 套索 正则化 岭回归
2022-02-10 08:56:15

我只是好奇为什么通常只有L1L2规范正则化。有证据证明为什么这些更好吗?

3个回答

除了@whuber 的评论 (*)。

Hastie 等人的《Statistical learning with Sparsity 》一书讨论了这一点。他们还使用所谓的L0“规范”(引号,因为这不是严格数学意义上的规范(**)),它只是计算向量的非零分量的数量。

从这个意义上说L0norm 用于变量选择,但它与lq规范与q<1不是凸的,所以很难优化。他们争辩说(我认为这个论点来自多诺霍在压缩感知方面的观点)L1范数,即套索,是L0“规范”(“最佳子集选择的最接近凸松弛”)。那本书还引用了其他的一些用途Lq规范。单位球在lq-规范与q<1看起来像这样

在此处输入图像描述

(来自 wikipedia 的图片)而 lasso 可以提供变量选择的图片解释是

在此处输入图像描述

这张图片来自上面参考的书。您可以看到,在套索情况下(将单位球绘制为菱形),椭圆(平方和)轮廓更有可能首先在其中一个角处接触菱形。在非凸的情况下(第一个单位球图),椭圆体和单位球之间的第一次接触更有可能是在一个角上,因此这种情况比套索更强调变量选择。

如果你在谷歌中尝试这个“带有非凸惩罚的套索”,你会得到很多论文做类似套索的非凸惩罚问题,比如lqq<1.

(*) 为了完整起见,我在此处复制 whuber 的评论:

我没有具体研究过这个问题,但是类似情况的经验表明可能会有一个很好的定性答案:所有在原点处二阶可微的范数将在局部等价,其中L2规范就是标准。所有其他规范在原点和L1定性地再现了他们的行为。这涵盖了整个范围。实际上,一个线性组合L1L2范数在原点处将任何范数逼近到二阶——这是在没有异常残差的回归中最重要的。

(**) 这l0-“规范”缺乏同质性,这是规范的公理之一。同质化意味着α0αx=αx.

我认为这个问题的答案很大程度上取决于你如何定义“更好”。如果我的解释正确,您想知道为什么这些规范与其他选项相比如此频繁地出现。在这种情况下,答案很简单。正则化背后的直觉是我有一些向量,我希望那个向量在某种意义上是“小”的。你如何描述向量的大小?好吧,你有选择:

  • 你数一下它有多少个元素(L0)
  • 您是否将所有元素相加?(L1)
  • 你测量“箭头”有多“长”(L2)
  • 你使用最大元素的大小吗?(L)

您可以使用像这样的替代规范,但它们没有像上面那样友好的物理解释。L3

在这个列表中,范数恰好为最小二乘问题之类的问题提供了很好的封闭式分析解决方案。在您拥有无限的计算能力之前,否则将无法取得很大进展。我推测“箭头的长度”视觉效果也比其他尺寸测量更吸引人。尽管您为正则化选择的规范会影响您通过最佳解决方案获得的残差类型,但我认为大多数人 a) 没有意识到这一点,或者 b) 在制定他们的问题时会深入考虑它。在这一点上,我预计大多数人会继续使用,因为它是“每个人都在做的事情”。L2L2

一个类比是指数函数,这在物理学、经济学、统计学、机器学习或任何其他数学驱动的领域中无处不在。我一直想知道为什么生活中的一切似乎都用指数来描述,直到我意识到我们人类并没有那么多花招。指数对于进行代数和微积分具有非常方便的属性,因此在尝试对现实世界中的某些事物进行建模时,它们最终成为任何数学家工具箱中的首选函数。可能像退相干时间这样的东西可以用高阶多项式来“更好地”描述,但是代数相对来说更难,归根结底,重要的是你的公司正在赚钱——指数是更简单也足够好。ex

否则,规范的选择会产生非常主观的影响,由您作为陈述问题的人来定义您在最佳解决方案中的偏好。您是否更关心解决方案向量中的所有分量在大小上都相似,还是最大分量的大小尽可能小?该选择将取决于您要解决的具体问题。

规范的主要原因是它们涵盖了当前的大多数应用程序。例如,范数也称为出租车范数,一个格子直线连接范数,包含绝对值范数L1L2L1

L2除了最小二乘之外,空间中的欧几里德距离n以及复变量 norm此外,Tikhonov 正则化和岭回归,即最小化的应用程序,通常被认为是范数.Axb2+Γx2L2

维基百科提供了有关这些和其他规范的信息。值得一提的是广义范数,范数也称为统一范数L0LpL

对于更高的维度,L范数甚至分数范数,例如 L可能空间距离范数 L更好地区分最近邻123 n2