选择正则化惩罚:交叉验证还是信息标准?

机器算法验证 交叉验证 套索 aic 正则化 弹性网
2022-04-04 18:14:15

我将使用弹性网络来估计稍后将用于预测的回归模型。

我有一个网格α[0,1] 内的值表示比例L1相对L2惩罚。
我也有一个网格λ处罚金额的值。

选择最优组合至少有两种方案(α,λ)

  1. 执行留一法交叉验证 (LOOCV) 以查看哪个组合(α,λ)在验证集上提供最低的 MSE(并且可能使用 one-sigma 规则来简化)。
  2. 使用整个样本查看哪个组合(α,λ)提供最低的 AIC。

在第二种选择中,AIC 中使用的自由度将基于弹性网的有效自由度。(我认为后者应该是可能获得的,因为 LASSO 和岭回归都知道有效的自由度。)

问题: 1. 和 2. 哪个更好,为什么?

一些想法:

  • 在特征选择的上下文中,已知 LOOCV 与基于 AIC 的选择渐近等效。所以渐近地,我预计 1. 和 2. 都会产生相同的结果。但是有限样本呢?
  • 由于速度,备选方案 2. 可能是首选。
  • 备选方案 2. 需要指定误差分布。
  • 计算 AIC 时可以使用有效自由度吗?

这里有几个相关的问题:thisthis

0个回答
没有发现任何回复~