岭回归的最大惩罚

机器算法验证 回归 交叉验证 正则化 岭回归
2022-03-02 12:48:12

考虑回归模型

y=Xβ+ε.

我将使用岭回归来估计岭回归包含一个调整参数(惩罚强度)如果给我一个候选值的网格,我会使用交叉验证来选择最优的但是,网格没有给出,所以我需要先设计它。为此,我需要选择最大值βλλλλmax

问题:如何在岭回归中λmax

之间需要有一个平衡点

  • 一个“太大”λmax
  • 一个导致放弃更严厉的惩罚并获得更好的性能的机会。λmax

(请注意,在 LASSO 的情况下,答案很简单;您可以采用使得对于任何的所有系数都精确设置为零。)λmaxλλmax

2个回答

在岭回归估计器中的作用是它通过 具体来说,如果设计矩阵的 SVD 为,则 这在我们的网站上已多次解释,参见例如@whuber 在此处的详细说明:The proof of shrinking coefficients using ridge regression through "spectral optimization"λsiX(si2+λ)/siX=USV

β^ridge=VSS2+λIUy.

这表明选择大得多的将非常强烈地收缩一切。我怀疑对于所有实际目的来说都太大了。λsmax2

λ=X22=si2

的 Frobenius 平方范数来标准化我的 lambda,并有一个从的交叉验证网格(在对数刻度上)。X01


话虽如此,与套索情况相比,没有任何 lambda 值可以被视为真正的“最大值”。想象一下,预测变量与响应完全正交,即真正的对于样本大小的任何有限值的有限值都将产生,因此可以从更强的收缩中受益。β=0λ<nβ^0

也许不能完全回答您的问题,但是与其使用对系数进行固定惩罚的岭回归,不如使用迭代自适应岭回归,因为后者近似于 L0 惩罚回归(又称最佳子集),其中对数似然GLM 模型会根据模型中非零系数的倍数进行惩罚 - 请参阅Frommlet & Noel 2016这样做的好处是您根本不必调整正则化级别 lambda。相反,如果您想直接优化 AIC(大致与最小化预测误差一致),您可以先验地将正则化级别设置为lambdalambda=2lambda=log(n)优化 BIC(在选择一致性方面产生渐近最优的模型选择)。这是在l0ara R 包中完成的。对我来说,这比首先在一个目标(例如岭)下优化系数更有意义,然后才根据其他一些标准(例如,最小化交叉验证预测误差、AIC 或 BIC)调整该模型的正则化水平。与岭回归或 LASSO 回归相比,L0 惩罚回归的另一个优势是它为您提供了无偏估计,因此您可以摆脱困扰大多数惩罚回归方法的偏差-方差权衡。的高维问题p>n

如果您想坚持使用常规岭回归,那么本演示文稿很好地概述了您可以用来调整岭惩罚因子的策略。诸如 AIC 或 BIC 之类的信息标准也可用于调整正则化,它们各自渐近地逼近一种特定形式的交叉验证:

  • AIC 近似最小化预测误差,并且渐近等效于留一法交叉验证 (LOOCV) (Stone 1977);LOOCV 反过来通过广义交叉验证 (GCV) 来近似,但 LOOCV 应该总是优于 GCV。但是 AIC 并不一致,这意味着即使有非常大量的数据(趋于无穷大)并且如果真实模型在候选模型中,则基于 AIC 标准选择真实模型的概率不会接近 1 .n
  • BIC 是对集成边际似然的近似值,在平坦先验下,它等效于寻求最大化它的优点是一致,这意味着在数据量非常大(趋于无穷大)的情况下,如果真实模型在候选模型中,那么根据BIC准则选择真实模型的概率将接近1很小,这将对预测性能产生轻微的影响。BIC 也等价于 leave-k-out cross-validation (LKOCV) 其中,其中P(D|M,A)(D=Data,M=model,A=assumptions)P(M|D,A)nnk=n[11/(log(n)1)]n=样本量(邵 1997)。BIC 有许多不同的版本,但归结为对边际似然进行不同的近似或假设不同的先验。例如,EBIC 不像在原始 BIC 中那样使用所有可能模型的先验统一,而是使用固定大小模型的先验统一 ( Chen & Chen 2008 ),而BICq 使用伯努利分布来指定要包含的每个参数的先验概率

请注意,LOOCV 误差也可以通过残差和帽子矩阵的对角线进行解析计算,而无需实际执行任何交叉验证。作为 LOOCV 误差的渐近近似,这始终是 AIC 的替代方案。

参考

Stone M. (1977) 通过交叉验证和 Akaike 标准选择模型的渐近等价。皇家统计学会杂志 B 系列,39, 44–7。

Shao J. (1997) 线性模型选择的渐近理论。中国统计 7, 221-242。