人工智能 - 哪个是更好的正则化形式：套索（L1）或岭（L2）？ - 吾爱随笔录

人工智能机器学习比较正则化 l2-正则化 l1-正则化

2021-11-08 17:58:11

给定一个山脊和一个套索正则化器，应该选择哪一个以获得更好的性能？

直观的图形解释（损失函数的椭圆轮廓与约束区域的交点）会有所帮助。

1个回答

下图显示了约束区域（绿色），以及残差平方和的轮廓（红色椭圆）。这些是等值线，表示椭圆上的点具有相同的 RSS。图：Lasso（左）和 Ridge（右）约束 [来源：Elements of Statistical Learning]

由于岭回归具有循环约束（ $\beta_1^2 + \beta_2^2 <= d$ ) 没有边，交点不会出现在轴上，这表明岭回归参数通常不为零。

相反，Lasso约束 ( $|\beta_1| + |\beta_2| <= d$ ) 在每个轴上都有角，因此椭圆通常会在轴处与约束区域相交。在 2D 中，这种情况会导致其中一个参数变为零，而在更高维度中，更多的参数估计可能同时达到零。

这是岭回归的一个缺点，其中最不重要的预测变量永远不会被消除，导致最终模型包含所有预测变量。对于 Lasso，L1 惩罚会强制某些参数在 $\lambda$ 很大。这具有降维效果，导致模型稀疏。

在预测变量数量较少的情况下，可以选择 L2 而不是 L1，因为它限制了保留所有预测变量的系数范数。

其它你可能感兴趣的问题