我正在阅读《统计学习要素》一书中的最佳子集选择。如果我有 3 个预测变量,我会创建个子集:
- 没有预测变量的子集
- 具有预测变量
- 具有预测变量
- 具有预测器
- 具有预测变量
- 具有预测变量
- 具有预测变量
- 具有预测变量
然后我在测试数据上测试所有这些模型以选择最好的模型。
现在我的问题是为什么最好的子集选择与例如套索相比不受欢迎?
如果我比较最佳子集和套索的阈值函数,我发现最佳子集将一些系数设置为零,如套索。但是,其他系数(非零系数)仍然具有 ols 值,它们将是无偏的。然而,在套索中,一些系数将为零,而其他系数(非零)将有一些偏差。下图更能说明问题:
从图片来看,最佳子集情况下的红线部分位于灰色线之上。另一部分位于 x 轴上,其中一些系数为零。灰线定义了无偏的解决方案。引入了一些偏差。从这个图中我看到最好的子集比套索更好!使用最佳子集的缺点是什么?