在使用k-fold CV在回归模型中进行选择时,我通常分别计算每个模型的CV误差,连同它的标准误差SE,并在CV误差最小的模型的1 SE内选择最简单的模型(第1标准错误规则,请参见此处的示例)。然而,最近有人告诉我,这样我高估了可变性,并且在两个模型 A 和 B 之间进行选择的特定情况下,我真的应该以不同的方式进行:
- 对于每一折长度,计算两个模型预测之间的逐点差异。然后计算折叠的均方差
- 平均的像往常一样跨折叠,并使用此 CV 差异误差(连同其标准误差)作为泛化误差的估计量。
问题:
- 你能理解这个吗?我知道使用 CV 误差作为泛化误差的估计背后有理论上的原因(我不知道这些原因是什么,但我知道它们存在!)。我不知道使用这种“差异”CV 错误背后是否有理论上的原因。
- 我不知道这是否可以推广到两个以上模型的比较。计算所有模型对的差异似乎有风险(多重比较?):如果你有两个以上的模型,你会怎么做?
编辑:我的公式完全错误,这里描述了正确的指标,而且要复杂得多。好吧,我很高兴在盲目地应用公式之前在这里问过!我感谢@Bay 帮助我理解他的启发性答案。所描述的正确措施是相当实验性的,所以我会坚持我值得信赖的主力,CV 错误!