在什么情况下应该考虑使用正则化方法(岭、套索或最小角度回归)而不是 OLS?
如果这有助于引导讨论,我的主要兴趣是提高预测准确性。
在什么情况下应该考虑使用正则化方法(岭、套索或最小角度回归)而不是 OLS?
如果这有助于引导讨论,我的主要兴趣是提高预测准确性。
简短回答:每当您面临以下情况之一时:
通过更好地平衡偏差和方差,岭回归通常产生比 OLS 解决方案更好的预测。它的主要缺点是所有预测变量都保存在模型中,因此如果您寻求简约模型或想要应用某种特征选择,这不是很有趣。
为了实现稀疏性,lasso 更合适,但它不一定会在存在高共线性的情况下产生良好的结果(据观察,如果预测变量高度相关,则 lasso 的预测性能由岭回归支配)。L1 惩罚的第二个问题是,当变量的数量大于受试者的数量时,lasso 解不是唯一确定的(这不是岭回归的情况)。lasso 的最后一个缺点是它倾向于在具有高成对相关性的一组预测变量中只选择一个变量。在这种情况下,有替代解决方案,如组(即,在协变量块上实现收缩,即一些回归系数块正好为零)或融合套索。图形套索还为 GGM 提供了有前途的功能(参见 R glasso包)。
但是,可以肯定的是,弹性网标准,它是 L1 和 L2 惩罚的组合,实现了收缩和自动变量选择,并且它允许的情况下变量。继 Zou 和 Hastie (2005) 之后,它被定义为最小化(超过)的参数
其中和.
套索可以使用基于坐标下降的算法计算,如 Friedman 和 coll. 在最近的论文中所述,通过坐标下降(JSS, 2010) 或 LARS 算法的广义线性模型的正则化路径。在 R 中,penalized、lars或biglars和glmnet包是有用的包;在 Python 中,有scikit.learn工具包,其中包含有关用于应用所有三种正则化方案的算法的大量文档。
至于一般参考资料,Lasso 页面包含开始使用 lasso 回归所需的大部分内容和有关 L1 惩罚的技术细节,并且这个相关问题提供了基本参考资料,我应该何时使用 lasso vs ridge?
使用岭回归的理论依据是,它的解决方案是给定系数的正态先验的后验均值。也就是说,如果你关心平方误差并且你相信一个正常的先验,那么岭估计是最优的。
同样,套索估计是系数的双指数先验下的后验模式。这在零一损失函数下是最优的。
在实践中,这些技术通常会在您有许多相关变量而不是大量数据的情况下提高预测准确性。虽然 OLS 估计器是最好的线性无偏估计器,但在这些情况下它具有很高的方差。如果您查看偏差 - 方差权衡,预测准确性会提高,因为偏差的小幅增加被方差的大幅减少所抵消。