ridge、LASSO 和 elasticnet 正则化方法如何比较?它们各自的优缺点是什么?任何好的技术论文或讲义也将不胜感激。
脊、套索和弹性网
机器算法验证
参考
套索
正则化
岭回归
弹性网
2022-01-24 13:52:06
4个回答
在《统计学习要素》一书中,Hastie 等人。对这些收缩技术进行了非常有见地和彻底的比较。该书可在线获取(pdf)。比较在第 69 页第 3.4.3 节中进行。
Lasso 和 Ridge 之间的主要区别在于它们使用的惩罚项。Ridge 使用惩罚项来限制系数向量的大小。Lasso 使用惩罚,它在系数之间施加稀疏性,从而使拟合模型更易于解释。Elasticnet 是作为这两种技术之间的折衷引入的,并且具有和规范混合的惩罚。
总而言之,以下是 Lasso、Ridge 和 Elastic-net 之间的一些显着差异:
- Lasso 进行稀疏选择,而 Ridge 没有。
- 当您有高度相关的变量时,岭回归会将两个系数彼此缩小。套索有点冷漠,通常会选择一个。根据上下文,人们不知道选择了哪个变量。Elastic-net 是两者之间的折衷方案,它试图同时进行收缩和稀疏选择。
- 岭估计器对数据的乘法缩放无关紧要。也就是说,如果 X 和 Y 变量都乘以常数,则对于给定的参数,拟合的系数不会改变。然而,对于 Lasso,拟合并不独立于缩放。实际上,参数必须按乘数放大才能得到相同的结果。弹性网更复杂。
- Ridge对最大的的惩罚多于对较小的 \beta 的惩罚(因为它们在惩罚项中是平方的)。套索更统一地惩罚他们。这可能很重要,也可能不重要。在具有强大预测器的预测问题中,与 Lasso 相比,Ridge 降低了预测器的有效性。
我强烈建议您看一看统计学习简介(Tibshirani 等人,2013 年)。
这样做的原因是,《统计学习要素》这本书是为在数学科学方面受过高级培训的个人而设计的。在 ISL 的前言中,作者写道:
统计学习简介源于对这些主题进行更广泛和更少技术处理的感知需求。[...]
统计学习导论适用于统计学或相关定量领域的高年级本科生或硕士生,或希望使用统计学习工具分析其数据的其他学科的个人。
上面的答案非常清楚和翔实。我想从统计的角度补充一点。以岭回归为例。它是序数最小二乘回归的扩展,用于解决存在许多相关特征时的多重共线性问题。如果线性回归是
Y=Xb+e
多元线性回归的正规方程解
b=inv(X.T*X)*X.T*Y
岭回归的正规方程解是
b=inv(X.T*X+k*I)*X.T*Y.
它是 b 的有偏估计量,我们总能找到一个惩罚项 k,它会使 Ridge 回归的均方误差小于 OLS 回归的均方误差。
对于 LASSO 和 Elastic-Net,我们找不到这样的解析解。
其它你可能感兴趣的问题