为什么在弹性网络回归中 lambda “在一个标准误差范围内”是 lambda 的推荐值?

机器算法验证 回归 交叉验证 正则化 网络 弹性网
2022-01-21 20:50:48

我了解 lambda 在弹性网络回归中的作用。而且我可以理解为什么要选择 lambda.min,即最小化交叉验证错误的 lambda 值。

我的问题是在统计文献中建议在哪里使用 lambda.1se,即最小化 CV 误差加上一个标准误差的 lambda 值我似乎找不到正式的引用,甚至找不到为什么这通常是一个很好的价值的原因。我知道这是一种限制性更强的正则化,并且会将参数更趋近于零,但我并不总是确定 lambda.1se 在什么条件下是比 lambda.min 更好的选择。有人可以帮忙解释一下吗?

2个回答

Friedman、Hastie 和 Tibshirani (2010),引用统计学习的要素,写道,

在选择最佳模型时,我们经常使用“一个标准错误”规则;这承认了这样一个事实,即风险曲线的估计存在错误,因此在简约方面犯了错误。

与任何其他数量相比,使用一个标准错误的原因似乎是因为它是……标准。Krstajic 等人(2014 年)写道(粗体强调我的):

布雷曼等人。[25] 在为分类树模型选择最佳树大小的情况下发现,具有最小交叉验证误差的树大小会生成一个通常过拟合的模型。因此,在他们的书 Breiman 等人的第 3.4.3 节中。[25] 定义了一个标准错误规则(1 SE 规则)用于选择最佳树大小,并在整本书中实施。为了计算单个 V-fold 交叉验证的标准误差,需要计算每个折叠的准确度,标准误差是根据每个折叠的 V 准确度计算的。哈斯蒂等人。[4] 将 1 SE 规则定义为选择最简约的模型,其误差不超过最佳模型误差的一个标准误差,并且他们在多个地方建议使用 1 SE 规则进行一般交叉验证。我们同意的 1 SE 规则的要点是选择精度与最佳模型相当的最简单模型

建议是,一个标准误差的选择完全是启发式的,基于一个标准误差通常相对于范围不大的感觉。λ价值观。

Breiman 等人的书(在 Krstajic 的另一个答案中引用)是我为 1SE 规则找到的最古老的参考资料。

这是 Breiman、Friedman、Stone 和 Olshen 的分类和回归树(1984)。他们在 3.4.3 节“推导出”了这条规则。

因此,如果您需要正式的引用,那似乎是原始来源。