在我尝试直观地推理它时,我得出结论,山脊可能对异常值更稳健。
以下是我的直觉/失败推理:
如果存在异常值,那么为了使我的预测与它相匹配,我可能会在某个维度上增加权重值,当我这样做时,与 Lasso 相比,该山脊会对其进行更多的惩罚,而不是让它取更高的值。所以看起来 ridge 更健壮,但大多数人说 Lasso 对异常值更健壮。
所以我的问题是,我的思维过程出了什么问题,正确的直观思考方式是什么?
在我尝试直观地推理它时,我得出结论,山脊可能对异常值更稳健。
以下是我的直觉/失败推理:
如果存在异常值,那么为了使我的预测与它相匹配,我可能会在某个维度上增加权重值,当我这样做时,与 Lasso 相比,该山脊会对其进行更多的惩罚,而不是让它取更高的值。所以看起来 ridge 更健壮,但大多数人说 Lasso 对异常值更健壮。
所以我的问题是,我的思维过程出了什么问题,正确的直观思考方式是什么?
让我们首先考虑异常值对系数的影响:
当您将 LASSO 惩罚应用于 OLS 时,您通过对系数的绝对值求和来惩罚系数。具有足够杠杆的异常值会增加/减少系数,也会线性影响惩罚。这将在一定程度上增加/减少对其他系数的惩罚,但幅度不大。
应用岭惩罚时,系数平方和会缩小系数。这意味着离群点不仅会二次增加 OLS,还会增加惩罚。因此,所有其他系数可能会或多或少地缩小(取决于您正在处理的异常值类型)。
这种惩罚对系数变化(以及对异常值)的敏感性意味着岭对异常值的鲁棒性不如 LASSO。