给定一个山脊和一个套索正则化器,应该选择哪一个以获得更好的性能?
直观的图形解释(损失函数的椭圆轮廓与约束区域的交点)会有所帮助。
给定一个山脊和一个套索正则化器,应该选择哪一个以获得更好的性能?
直观的图形解释(损失函数的椭圆轮廓与约束区域的交点)会有所帮助。
下图显示了约束区域(绿色),以及残差平方和的轮廓(红色椭圆)。这些是等值线,表示椭圆上的点具有相同的 RSS。
图:Lasso(左)和 Ridge(右)约束 [来源:Elements of Statistical Learning]
由于岭回归具有循环约束() 没有边,交点不会出现在轴上,这表明岭回归参数通常不为零。
相反,Lasso约束 () 在每个轴上都有角,因此椭圆通常会在轴处与约束区域相交。在 2D 中,这种情况会导致其中一个参数变为零,而在更高维度中,更多的参数估计可能同时达到零。
这是岭回归的一个缺点,其中最不重要的预测变量永远不会被消除,导致最终模型包含所有预测变量。对于 Lasso,L1 惩罚会强制某些参数在很大。这具有降维效果,导致模型稀疏。
在预测变量数量较少的情况下,可以选择 L2 而不是 L1,因为它限制了保留所有预测变量的系数范数。