使用 L1 正则化的回归与 Lasso 相同,使用 L2 正则化的回归与岭回归相同吗?以及如何写“套索”?

机器算法验证 回归 术语 套索 正则化 岭回归
2022-01-28 11:02:19

我是一名学习机器学习的软件工程师,尤其是通过 Andrew Ng 的机器学习课程在使用正则化研究线性回归时,我发现了一些令人困惑的术语:

  • 使用 L1 正则化或 L2 正则化进行回归
  • 套索
  • 岭回归

所以我的问题:

  1. L1 正则化的回归与 LASSO 完全一样吗?

  2. L2 正则化回归与岭回归完全一样吗?

  3. “LASSO”在写作中是如何使用的?应该是“LASSO回归”吗?我见过像“套索更合适”这样的用法。

如果上述 1 和 2 的答案是“是”,那么为什么这两个术语有不同的名称?“L1”和“L2”来自计算机科学/数学,“LASSO”和“Ridge”来自统计数据吗?

当我看到以下帖子时,这些术语的使用令人困惑:

L1 和 L2 正则化有什么区别? ”(quora.com)

我什么时候应该使用 lasso vs ridge? ”(stats.stackexchange.com)

1个回答
  1. 是的。

  2. 是的。

  3. LASSO 实际上是一个首字母缩写词(最小绝对收缩和选择运算符),所以它应该大写,但现代写作是Mad Max的词汇等价物。另一方面,Amoeba 写道,即使是创造术语 LASSO 的统计学家现在也使用小写渲染(Hastie、Tibshirani 和 Wainwright,Statistical Learning with Sparsity)。人们只能推测转换的动机。如果您正在为学术出版社写作,他们通常会为这类事情提供风格指南。如果你在这个论坛上写文章,任何一个都可以,我怀疑有人真的在乎。

L表示法是对 Minkowski 规范的引用,并且Lp空格。这些只是将出租车和欧几里得距离的概念推广到p>0在以下表达式中:

xp=(|x1|p+|x2|p+...+|xn|p)1p
重要的是,只有定义了度量距离;不满足三角不等式,因此它不是大多数定义的距离。p10<p<1

我不确定山脊和 LASSO 之间的联系是什么时候实现的。

至于为什么有多个名称,只是这些方法在不同的地方、不同的时间发展起来的问题。统计学中的一个共同主题是概念通常有多个名称,一个用于独立发现它的每个子领域(核函数与协方差函数,高斯过程回归与克里金法,AUC 与统计量)。Ridge 回归可能应该被称为 Tikhonov 正则化,因为我相信他拥有该方法的最早主张。同时,LASSO 是在 1996 年才推出的,比 Tikhonov 的“山脊”方法要晚得多!c