与 L2 正则化相比,L1 正则化通常会产生稀疏的特征向量,并且大多数特征权重为零。
上述陈述的原因是什么 - 有人可以用数学方式解释它,和/或提供一些直觉(可能是几何)吗?
与 L2 正则化相比,L1 正则化通常会产生稀疏的特征向量,并且大多数特征权重为零。
上述陈述的原因是什么 - 有人可以用数学方式解释它,和/或提供一些直觉(可能是几何)吗?
在L1 正则化中,您为每个参数计算的惩罚项是给定权重的绝对值的函数(乘以某个正则化因子)。因此,无论权重是正还是负(由于绝对值),也无论权重有多大,只要权重不等于 0,就会产生惩罚。因此,训练过程的唯一方法是可以通过将所有(不必要的)权重推向 0 来显着减少 L1 正则化惩罚,这会导致稀疏表示。
当然,L2 正则化也只会在所有权重为 0 时严格为 0。但是,在 L2 中,权重对 L2 惩罚的贡献与权重的平方值成正比。因此,一个绝对值小于1的权重,即, 受到 L2 的惩罚比 L1 的惩罚要小得多,这意味着 L2 不太强调将所有权重推向 0。这是因为在 (0,1) 中对某个值进行平方将导致值更低幅度比取非平方值本身:.
因此,虽然两个正则化项仅在权重为 0 时才为 0,但 L1 项用比 L2 强得多,因此比 L2 更强烈地将权重推向 0。