编辑:基于交叉验证调整或选择模型本质上是试图最小化预测误差(例如,均方预测误差)。您选择一个以输入数据的某些子集为条件的模型,并在遗漏位置预测输出。直观地说,这是一个预测,因为您是在样本外的位置评估模型。您的问题是,如果您的候选模型集独立于输入数据(即随机生成模型时不使用任何数据),会发生什么情况。
这个假设与任何其他模型拟合过程没有什么不同。例如,如果我从参数化模型开始,并且参数可以是任何实数,那么我也有无限的候选模型集。我们仍然需要通过最小化一些错误度量来从可能的模型集中选择最佳模型。因此,我们的两种模型选择都以某些训练数据为条件(如果使用交叉验证,可能是所有训练数据的一个子集)。您没有指定错误度量,因此假设它是均方误差 (MSE)。我选择模型参数,因此我的模型使用一些黑盒程序,假设 MSE 度量以训练数据为条件。您从一组随机模型中选择您的模型,假设 MSE 指标以训练数据为条件。
我们选择相同的模型吗?这取决于您是否从不同的候选模型集开始。
我们是否过度拟合数据?这取决于我们开始使用的候选模型集和训练数据。
我们知道我们过度拟合数据吗?如果我们进行交叉验证,那么我们可以检查预测误差。
ORIGINAL RESPONSE:从广义上讲,数据中有一些信号和一些噪声。当我们过拟合时,我们基本上是在拟合噪声。
在交叉验证中,我们在拟合时遗漏部分数据,并在预测遗漏点时评估错误。它类似于拥有训练和测试数据,因为我们测量的是样本外错误。无论省略哪些点,模型都必须很好地概括。如果我们拟合噪声,模型将无法很好地泛化。我们正在比较的模型集可能不包括那些试图在训练数据中省略数据点时对其进行插值的模型。如果模型以这种方式运行(例如,改善拟合的随机行为),那么很可能我们没有合理的通用模型拟合程序,并且交叉验证无法帮助我们。
如果您有无限的模型集和无限的时间,那么我想理论上您可以生成一个与通过任何其他程序生成的任何模型一样好或更好的模型。但是,您如何知道它是无限集中的哪个模型?如果是对训练数据进行插值的模型,那么是的,当训练数据有噪声时,它会过拟合。