邵的留一法交叉验证结果何时适用?

机器算法验证 分类 模型选择 交叉验证
2022-01-20 16:38:57

邵军在他的论文Linear Model Selection by Cross-Validation中表明,对于多元线性回归中的变量选择问题,留一法交叉验证(LOOCV)的方法是“渐近不一致的”。用简单的英语来说,它倾向于选择具有太​​多变量的模型。在一项模拟研究中,Shao 表明即使只有 40 次观察,LOOCV 的性能也可能逊于其他交叉验证技术。

这篇论文有些争议,有些被忽视(发表 10 年后,我的化学计量学同事从未听说过它,并且很高兴地使用 LOOCV 进行变量选择......)。还有一种信念(我对此感到内疚),它的结果在某种程度上超出了最初的有限范围。

那么问题来了:这些结果能延伸多远?它们适用于以下问题吗?

  1. 逻辑回归/GLM 的变量选择?
  2. Fisher LDA 分类的变量选择?
  3. 使用具有有限(或无限)内核空间的 SVM 进行变量选择?
  4. 分类模型的比较,比如使用不同内核的 SVM?
  5. 线性回归中模型的比较,比如比较 MLR 和 Ridge 回归?
  6. 等等
4个回答

您需要指定模型的用途,然后才能说出邵氏的结果是否适用。例如,如果目的是预测,那么 LOOCV 就很有意义,变量选择的不一致性也不成问题。另一方面,如果目的是识别重要变量并解释它们如何影响响​​应变量,那么邵的结果显然很重要,LOOCV 是不合适的。

AIC 渐近 LOOCV,而 BIC 渐近等价于 leave-v-出简历在哪里v=n[11/(log(n)1)]--- 仅适用于线性模型的 BIC 结果。所以 BIC 给出了一致的模型选择。因此,Shao 的结果的简短总结是 AIC 对预测有用,而 BIC 对解释有用。

这篇论文有些争议,有些被忽视

不是真的,它在模型选择理论方面得到了很好的考虑,尽管它肯定被误解了。真正的问题是它与野外建模实践的相关性。假设您对建议调查的案例执行模拟,并确定 LOOCV 确实不一致。你得到这个的唯一原因是因为你已经知道“真实”模型,因此可以确定恢复“真实”模型的概率不会收敛到 1。对于野外建模,这是真实的频率(这些现象是由线性模型描述的,而“真实”模型是所考虑的模型的子集)?

邵的论文对于推进理论框架当然很有趣。它甚至提供了一些明确性:如果确实在考虑“真实”模型,那么我们就有了一致性结果可以证明。但我不确定你描述的案例的实际模拟会有多有趣。这在很大程度上是为什么像 EOSL 这样的大多数书籍并没有过多关注 Shao 的结果,而是将预测/泛化误差作为模型选择的标准。

编辑:对您的问题的简短回答是:Shao 的结果适用于您执行最小二乘估计、二次损失函数时。没有更宽。(我认为 Yang(2005 年?)有一篇有趣的论文调查了你是否可以保持一致性和效率,但答案是否定的。)

我会说:到处都是,但我还没有看到严格的证据。背后的直觉是,在进行 CV 时,必须在足够大的训练以建立合理的模型和测试足够大以使其成为合理的基准之间取得平衡。
在处理数千个相当同质的对象时,选择一个与它与留在集合中的其他对象非常相似的风险有关——然后结果就会过于乐观。
另一方面,在对象很少的情况下,LOO和k-fold之间没有本质区别;10/10只是1我们不能用它做任何事情。

1)@ars 的回答提到了杨(2005),“AIC 和 BIC 的优势可以共享吗?” . 粗略地说,您似乎无法让模型选择标准同时实现一致性(倾向于选择正确的模型,如果确实存在正确的模型并且它在考虑的模型中)和效率(达到最低均值您选择的模型中的平均平方误差)。如果您倾向于平均选择正确的模型,有时您会得到稍微太小的模型……但由于经常错过真正的预测变量,您在 MSE 方面比总是包含一些虚假预测变量的人做得更差。

因此,如前所述,如果您更关心做出正确的预测而不是获得正确的变量,那么继续使用 LOOCV 或 AIC 就可以了。

2) 但我还想指出他的另外两篇论文:Yang (2006) “Comparing Learning Methods for Classification”Yang (2007) “Consistency of Cross Validation for Comparing Regression Procedures”这些论文表明,如果您比较收敛速度比线性模型慢的模型,则不需要将训练与测试数据的比率缩小到 0。

因此,要更直接地回答您最初的问题 1-6:Shao 的结果适用于将线性模型相互比较时。无论是回归还是分类,如果您要比较收敛速度较慢的非参数模型(甚至将一个线性模型与一个非参数模型进行比较),您可以使用大部分数据进行训练,并且仍然具有模型选择一致的 CV。 .. 但是,杨仍然认为 LOOCV 过于极端。