哪个是更好的正则化形式:套索(L1)或岭(L2)?

人工智能 机器学习 比较 正则化 l2-正则化 l1-正则化
2021-11-08 17:58:11

给定一个山脊和一个套索正则化器,应该选择哪一个以获得更好的性能?

直观的图形解释(损失函数的椭圆轮廓与约束区域的交点)会有所帮助。

1个回答

下图显示了约束区域(绿色),以及残差平方和的轮廓(红色椭圆)。这些是等值线,表示椭圆上的点具有相同的 RSS。 :Lasso(左)和 Ridge(右)约束 [来源:Elements of Statistical Learning]在此处输入图像描述

由于回归具有循环约束(β12+β22<=d) 没有边,交点不会出现在轴上,这表明岭回归参数通常不为零。

相反,Lasso约束 (|β1|+|β2|<=d) 在每个轴上都有角,因此椭圆通常会在轴处与约束区域相交。在 2D 中,这种情况会导致其中一个参数变为零,而在更高维度中,更多的参数估计可能同时达到零。

这是岭回归的一个缺点,其中最不重要的预测变量永远不会被消除,导致最终模型包含所有预测变量。对于 Lasso,L1 惩罚会强制某些参数在λ很大。这具有降维效果,导致模型稀疏。

在预测变量数量较少的情况下,可以选择 L2 而不是 L1,因为它限制了保留所有预测变量的系数范数。