为什么 lasso 对异常值比 ridge 更健壮?

机器算法验证 套索 异常值 正则化 强大的
2022-03-11 21:35:52

在我尝试直观地推理它时,我得出结论,山脊可能对异常值更稳健。

以下是我的直觉/失败推理:

如果存在异常值,那么为了使我的预测与它相匹配,我可能会在某个维度上增加权重值,当我这样做时,与 Lasso 相比,该山脊会对其进行更多的惩罚,而不是让它取更高的值。所以看起来 ridge 更健壮,但大多数人说 Lasso 对异常值更健壮。

所以我的问题是,我的思维过程出了什么问题,正确的直观思考方式是什么?

1个回答

让我们首先考虑异常值对系数的影响:

  • 如果它的杠杆率很低,什么都没有;
  • 如果它具有高杠杆率,它会将系数拉向自身(增加或减少它)。

当您将 LASSO 惩罚应用于 OLS 时,您通过对系数的绝对值求和来惩罚系数。具有足够杠杆的异常值会增加/减少系数,也会线性影响惩罚。这将在一定程度上增加/减少对其他系数的惩罚,但幅度不大。

应用岭惩罚时,系数平方和会缩小系数。这意味着离群点不仅会二次增加 OLS,还会增加惩罚。因此,所有其他系数可能会或多或少地缩小(取决于您正在处理的异常值类型)。

这种惩罚对系数变化(以及对异常值)的敏感性意味着岭对异常值的鲁棒性不如 LASSO。