如果只对预测感兴趣,为什么要在山脊上使用套索?

机器算法验证 机器学习 预言 套索 正则化 岭回归
2022-02-01 13:20:24

An Introduction to Statistical Learning的第 223 页上,作者总结了岭回归和 lasso 之间的差异。它们提供了一个示例(图 6.9),说明“lasso 在偏差、方差和 MSE 方面往往优于岭回归”。

我理解为什么套索是可取的:它会导致稀疏的解决方案,因为它将许多系数缩小到 0,从而产生简单且可解释的模型。但是我不明白当只对预测感兴趣时它如何能胜过岭(即在示例中它如何获得显着降低的 MSE?)。

使用岭,如果许多预测变量对响应几乎没有影响(少数预测变量影响很大),它们的系数不会简单地缩小到非常接近零的一个小数字......导致非常类似于套索的东西? 那么为什么最终模型的性能会比 lasso 差呢?

2个回答

你问这个问题是对的。一般来说,当使用适当的准确度评分规则(例如,均方预测误差)时,岭回归将优于 lasso。Lasso 花费了一些信息来试图找到“正确的”预测变量,在许多情况下它甚至不擅长这样做。两者的相对性能将取决于真实回归系数的分布。如果您实际上有一小部分非零系数,那么 lasso 可以表现得更好。就我个人而言,当对预测准确性感兴趣时,我几乎一直使用 ridge。

我认为您引用的示例的具体设置是理解为什么 lasso 优于 ridge 的关键:45 个预测变量中只有 2 个实际上是相关的。

这接近于一个病态的情况:套索,专门用于使归零变得容易,执行完全按照预期,而岭将不得不处理大量无用的术语(即使它们的效果被归约到接近于零,它仍然是一个非零效应)。