为什么 L1 正则化可以“将权重归零”并因此导致模型稀疏?

机器算法验证 机器学习 套索 正则化 过拟合 岭回归
2022-03-14 23:10:20

我知道这里有一个关于 L1 正则化对特征选择的影响的非常相关的解释:Why L1 norm for sparse models [Ref. 1]。

为了更好地理解它,我正在阅读 Google 的稀疏正则化教程:L₁ 正则化[Ref. 2]。说到下面的部分,我强调了一些我不明白的陈述:

您可以将 L1 的导数视为每次从重量中减去某个常数的力。但是,由于绝对值,L1 在 0 处有不连续性,这会导致跨 0 的减法结果变为零。例如,如果减法会强制将权重从 +0.1 变为 -0.2,则 L1 会将权重设置为正好 0尤里卡,L1 将重量归零。

我想当它说“L1 在 0 处不连续”时,它意味着 L1 的丢失,如下图所示 [Ref. 1]:

在此处输入图像描述

但是为什么它会“导致交叉0的减法结果归零”? 为什么“如果减法会强制将权重从 +0.1 变为 -0.2,L1 会将权重设置为正好 0”?

是否与 L1 不可微分有关w=0?

1个回答

考虑他们的比喻,即 L1 正则化是“每次从权重中减去一些常数的力量”。

首先,如果摩擦项非常高,则它仅类似于物理力,因为力会引起加速度,并且加速度被积分形成速度,速度积分形成位置。如果摩擦力很高,那么速度永远不会持续,力随时间的积分大致是位置的总变化。

所以,考虑到每个时间步,位置x(重量或任何你正在调整的东西)经历一个在那个时间步长上施加总加速度的力ksgn(x).

认为x小于k. 似乎施加力会使x过冲为零。但是,如果将时间步细分为更小的时间步,并且k成更小的总加速度(因为力在更小的周期内积分),在细分的极限x简单地归零。

如果这是 L2 规范,您可以就超调提出相同的问题。只是现在有一个简单的物理隐喻:一个过阻尼的钟摆(在泥中),它不会超调。