我在 CrossValidated 上遇到了许多讨论交叉验证和嵌套交叉验证作为替代方案的帖子(例如这里或这里)。我不太明白为什么“普通”K-fold 交叉验证会给出有偏差的误差估计,这就是为什么我们需要嵌套交叉验证来以可靠(无偏见)的方式评估所选模型的性能的原因。
在所有这些关于交叉验证的帖子中,都强调了超参数调整(模型选择)和泛化性能估计之间的区别。但是这里有什么区别呢?为什么我不能同时对模型选择和估计这两个任务使用“普通”K-fold 交叉验证?我理解它的方式是模型选择与性能估计有关,因为选择最佳模型我们的评估基于一些指标,例如用于评估性能的 MSE。
这种偏见从何而来?集上训练不同的模型,然后在未用于训练的剩余集上评估性能,所以它应该给我们一个很好的性能估计,不是吗?用于验证的所有我们不使用相同的集合进行训练和验证。我看到如果我们执行重复的交叉验证,验证集在不同的重复中不是独立的,平均误差的标准误差会太低,但我真的看不出这种方法会给我们带来有偏差的估计。
这个推理有什么问题吗?如果是这样,为什么?也许偏见的来源有些棘手,我看不到。