L1 与 L2 稳定性?

机器算法验证 回归 套索 岭回归
2022-04-13 07:51:54

在此处查看本段:http: //www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/

最小绝对偏差法的不稳定性意味着,对于一个基准面的一个小的水平调整,回归线可能会有很大的跳跃。该方法对某些数据配置有连续解;但是,通过少量移动基准,可以“跳过”具有跨区域的多个解决方案的配置。在通过这个解的区域后,最小绝对偏差线的斜率可能与前一条线的斜率有很大不同。相反,最小二乘解是稳定的,因为对于数据点的任何小的调整,回归线总是只会轻微移动;也就是说,回归参数是数据的连续函数。

出于某种原因,我在网上找不到任何描述这种“稳定”现象的东西。它以不同的名称而闻名吗?

稳定性似乎指的是,对于 (x,y) 数据集,“稍微微调单个输入 x_i。对于 L1 目标函数,预测线的斜率会发生巨大变化,因此 L1 目标是不稳定的。”

我真的很想对该帖子中包含的这张图片进行理论解释:http: //www.chioka.in/wp-content/uploads/2013/12/programmatic-L1-vs-L2-visualization.png

2个回答

这通常称为“敏感性分析”或“稳定性”。一篇基于此推导界限的优秀论文是Stability and Generalization界限当然不一定严格!

如果您查看定义 19 以及后续的定理和引理,您可以看到,如果某些东西是σ-admissable 那么存在一个线性的界限σ一般来说。为了L1证明它是相当简单的1- 可接纳的(事实上,他们这样说是为了ϵ-不敏感L1SVM 的损失 - 示例 1,pdf 中第 17 页的底部(515 是打印的页码)),而L2需要空间Y被束缚——如果你做数学,这基本上是因为你可以推导出

σ|y12y222y(y1y2)||y1y2|=|y1+y22y|
. 因此,一般来说,人们应该期望L1实际上在这里有一个更好的界限。我认为这不能完全解决您的问题,但希望它确实为您提供了一个更正式的方法来分析您的细节的起点。

L1 范数基于最小化绝对偏差,计算绝对偏差:

AD=Σi=1n|yif(xi)|

L2 范数基于最小平方偏差,计算平方偏差:

LSD=Σi=1n(yif(xi))2

那么小推和大推有什么区别呢?

从的角度来看AD,如果我们根据平均差的比例来考虑它,那么xi将占均值差的不到 1 比例。如果它小于平均差。如果微调很大,它将大于 1。它影响总和的量线性地取决于微移的幅度。

从的角度来看LSD,如果我们根据平均方差的比例来考虑它,那么xi如果它小于平均方差,则小于 1。它影响总和的量取决于微移的平方幅度。如果微调很大,它将大于 1。请注意,如果我们对小于 1 的数进行平方,它会变得更,这意味着 L2 不再强调任何小的微调。

我不认为这个数字涵盖了足够的范围,如果微调的方差大于平均方差,那么 L2 范数误差实际上会比 L1 误差增长得更快。

存在一系列轻推,其中 L2 预计会更稳定(轻推的方差小于平均方差)和不太稳定的区域(轻推较大)。在两者之间有一个区域,根据两者的相互作用,两者在误差方面将更具可比性ADLSD. @MotiN 在他的回答中涵盖了随着轻推增长而迅速升级的情况,如果界限松散,L2 会随着轻推的增长而急剧减弱。