考虑回归模型
我将使用岭回归来估计。岭回归包含一个调整参数(惩罚强度)。如果给我一个候选值的网格,我会使用交叉验证来选择最优的。但是,网格没有给出,所以我需要先设计它。为此,我需要选择最大值。
问题:如何在岭回归中
之间需要有一个平衡点
- 一个“太大”
- 一个导致放弃更严厉的惩罚并获得更好的性能的机会。
(请注意,在 LASSO 的情况下,答案很简单;您可以采用使得对于任何的所有系数都精确设置为零。)
考虑回归模型
我将使用岭回归来估计。岭回归包含一个调整参数(惩罚强度)。如果给我一个候选值的网格,我会使用交叉验证来选择最优的。但是,网格没有给出,所以我需要先设计它。为此,我需要选择最大值。
问题:如何在岭回归中
之间需要有一个平衡点
(请注意,在 LASSO 的情况下,答案很简单;您可以采用使得对于任何的所有系数都精确设置为零。)
在岭回归估计器中的作用是它通过 的。具体来说,如果设计矩阵的 SVD 为,则 这在我们的网站上已多次解释,参见例如@whuber 在此处的详细说明:The proof of shrinking coefficients using ridge regression through "spectral optimization"。
这表明选择大得多的将非常强烈地收缩一切。我怀疑对于所有实际目的来说都太大了。
的 Frobenius 平方范数来标准化我的 lambda,并有一个从到的交叉验证网格(在对数刻度上)。
话虽如此,与套索情况相比,没有任何 lambda 值可以被视为真正的“最大值”。想象一下,预测变量与响应完全正交,即真正的。对于样本大小的任何有限值的有限值都将产生,因此可以从更强的收缩中受益。
也许不能完全回答您的问题,但是与其使用对系数进行固定惩罚的岭回归,不如使用迭代自适应岭回归,因为后者近似于 L0 惩罚回归(又称最佳子集),其中对数似然GLM 模型会根据模型中非零系数的倍数进行惩罚 - 请参阅Frommlet & Noel 2016。这样做的好处是您根本不必调整正则化级别 lambda。相反,如果您想直接优化 AIC(大致与最小化预测误差一致),您可以先验地将正则化级别设置为优化 BIC(在选择一致性方面产生渐近最优的模型选择)。这是在l0ara R 包中完成的。对我来说,这比首先在一个目标(例如岭)下优化系数更有意义,然后才根据其他一些标准(例如,最小化交叉验证预测误差、AIC 或 BIC)调整该模型的正则化水平。与岭回归或 LASSO 回归相比,L0 惩罚回归的另一个优势是它为您提供了无偏估计,因此您可以摆脱困扰大多数惩罚回归方法的偏差-方差权衡。的高维问题。
如果您想坚持使用常规岭回归,那么本演示文稿很好地概述了您可以用来调整岭惩罚因子的策略。诸如 AIC 或 BIC 之类的信息标准也可用于调整正则化,它们各自渐近地逼近一种特定形式的交叉验证:
请注意,LOOCV 误差也可以通过残差和帽子矩阵的对角线进行解析计算,而无需实际执行任何交叉验证。作为 LOOCV 误差的渐近近似,这始终是 AIC 的替代方案。
参考
Stone M. (1977) 通过交叉验证和 Akaike 标准选择模型的渐近等价。皇家统计学会杂志 B 系列,39, 44–7。
Shao J. (1997) 线性模型选择的渐近理论。中国统计 7, 221-242。