Leave One Out 交叉验证是否会增加过度拟合的机会?

机器算法验证 交叉验证 过拟合
2022-04-04 19:12:16

通过增加训练集的大小,模型可以记住更多的数据。因此,使用留一法会增加过拟合的机会吗?

2个回答

随着算法(及其参数)复杂性的增加,ML 模型将开始“记忆”数据,而不是训练集的大小。

交叉验证用于估计您的模型在未用于训练的数据上的性能。如果您使用LOOCV (k=n),那么您的k个模型将(几乎)相同。这为您的模型评估提供了高方差,并且对在整个数据集上训练的最终模型具有低偏差。

如果您不确定k的良好值,请使用10 倍 10 倍分层 CV

不使用留一法的主要原因是与 k 折交叉验证相比,它的计算量很大。(虽然可以更直接的做LOOCV公式的Proof of LOOCV

较大的训练集通常不会导致更强的过拟合。事实上,它具有相反的效果。噪声将被更多地抵消,并且不太可能产生过度拟合(模型会记住训练数据的平均值)。此外,与 k-fold CV 相比,有更多方法可以将数据拆分为训练数据和测试数据,这通常也应该更好。