邵军在他的论文Linear Model Selection by Cross-Validation中表明,对于多元线性回归中的变量选择问题,留一法交叉验证(LOOCV)的方法是“渐近不一致的”。用简单的英语来说,它倾向于选择具有太多变量的模型。在一项模拟研究中,Shao 表明即使只有 40 次观察,LOOCV 的性能也可能逊于其他交叉验证技术。
这篇论文有些争议,有些被忽视(发表 10 年后,我的化学计量学同事从未听说过它,并且很高兴地使用 LOOCV 进行变量选择......)。还有一种信念(我对此感到内疚),它的结果在某种程度上超出了最初的有限范围。
那么问题来了:这些结果能延伸多远?它们适用于以下问题吗?
- 逻辑回归/GLM 的变量选择?
- Fisher LDA 分类的变量选择?
- 使用具有有限(或无限)内核空间的 SVM 进行变量选择?
- 分类模型的比较,比如使用不同内核的 SVM?
- 线性回归中模型的比较,比如比较 MLR 和 Ridge 回归?
- 等等