在An Introduction to Statistical Learning的第 223 页上,作者总结了岭回归和 lasso 之间的差异。它们提供了一个示例(图 6.9),说明“lasso 在偏差、方差和 MSE 方面往往优于岭回归”。
我理解为什么套索是可取的:它会导致稀疏的解决方案,因为它将许多系数缩小到 0,从而产生简单且可解释的模型。但是我不明白当只对预测感兴趣时它如何能胜过岭(即在示例中它如何获得显着降低的 MSE?)。
使用岭,如果许多预测变量对响应几乎没有影响(少数预测变量影响很大),它们的系数不会简单地缩小到非常接近零的一个小数字......导致非常类似于套索的东西? 那么为什么最终模型的性能会比 lasso 差呢?