如何决定使用哪种惩罚措施?教科书中的任何一般准则或拇指规则

机器算法验证 机器学习 套索 岭回归 正则化
2022-03-22 18:36:30

文献中提供了许多正则化措施,这对初学者来说有点困惑。经典的惩罚是Hoerl & Kennard (1970, Technometrics 12, 55-67) 的 ridge。

在此处输入图像描述

Tibshirani (1996, Journal of the Royal Statistical Society B 58, 267–288)对此的另一个修改是lasso ,定义为:

在此处输入图像描述

另一种惩罚是弹性净惩罚(Zou and Hastie 2005, Journal of the Royal Statistical Society B 67, 301-320),它是 lasso 惩罚和 ridge 惩罚的线性组合。因此,处罚涵盖了这两种极端情况。
在此处输入图像描述

我能找到的另一个惩罚是 Frank & Friedman (1993, Technometrics 35, 109–148) 中引入的桥牌惩罚。其中 λ̃ = (λ, γ)。它具有一个额外的调整参数γ,它控制估计系数向量的偏好程度,以与回归空间中的原始数据轴方向对齐,因此是标准化的数据轴方向。它包括作为特殊情况的套索惩罚(γ = 1)和岭惩罚(γ = 2)。

在此处输入图像描述

我的问题是:对于使用的惩罚类型是否有任何偏好 - 来自或来自统计教科书或者这只是反复试验?请用外行语言解释。

1个回答

这个问题可以有很多考虑。仅举几例:

  1. 推论:岭估计的分布相当容易推导。套索,以及基本上任何其他执行变量选择的惩罚,只有有限的概率结果。
  2. 稀疏性:如果您想要一个只有几个预测变量的模型(例如,预测速度、可解释性......),那么您会想要l1正则化。
  3. 计算速度:学习的时间复杂度是一个考虑因素。算法之间存在差异。请参阅此处以获取一些指导。如果您将整个过程插入重复拟合模型的交叉验证方案中,这一点变得尤为重要。