当数据生成过程是确定性的时不可能过拟合?

机器算法验证 数理统计 过拟合 偏差-方差-权衡
2022-03-22 13:40:00

对于随机数据生成过程 (DGP) 和产生点预测 的模型,偏差-方差分解为

Y=f(X)+ε
Y^=f^(X),

Err(x0)=E[(Yf^(x0))2|X=x0]=(E[f^(x0)f(x0)])2+E[(f^(x0)E[f^(x0)])2]+σε2=Bias2   +Variance + Irreducible Error

(Hastie et al. “The Elements of Statistical Learning”(2nd edition, 2009)Section 7.3 p. 223;我使用符号而不是)。如果有范围模型可供选择,则高度灵活的模型将具有低偏差和高方差,并且往往会过拟合。不灵活的将具有高偏差和低方差,并且往往会欠拟合。产生最低预期平方误差的模型将介于两个极端之间。Bias2Bias

对于没有附加随机误差的确定性DGP, 偏差-方差分解告诉我们方差和不可约误差为零,只剩下偏差。如果有一个范围模型可供选择,选择最灵活的模型将产生最低的偏差,从而产生最低的预期平方误差。这表明当 DGP 是确定性的时,不可能过拟合。

Y=f(X),

对我来说,这听起来好得令人难以置信。也许需要注意的是,这里的模型使用与 DGP 相同的回归量集,即所有相关变量都被考虑在内,不包括不相关的变量。这在实践中不太可能成立。如果模型与 DGP 中的回归变量集不同,则可能会有不同的故事。

问题:

  1. 我为什么不可能过度拟合确定性 DGP 的推理是否有意义?如果不是,为什么?
  2. 如果 DGP 和模型中使用的回归量不同,推理是否会失效?如果是这样,怎么做?

更新:在实践中,许多 DGP 可以被认为是完全确定的或几乎确定的,随机分量可以忽略不计,即使它们的机制可能对我们来说太复杂而无法理解,更不用说准确建模了。如果 Q1 的答案是推理是合理的,而 Q2 的答案是推理没有崩溃,正如@markowitz 所建议的那样,那么在实践中应该很少关注过度拟合。这对我来说似乎违反直觉......

3个回答

如果 DGP 是无噪声的,则不可能遇到过拟合问题。确实如此。实际上,您也可以将过度拟合视为拟合噪声(不可减少的误差)而不仅仅是信号的问题。例如,在回归上下文中,您可以改进拟合,最多在项中可以实现完美拟合,而不管噪声。然而,偏差问题仍然存在。R2

对我来说,这听起来好得令人难以置信。也许需要注意的是,这里的模型使用与 DGP 相同的回归量集,即所有相关变量都被考虑在内,不包括不相关的变量。这在实践中不太可能成立。如果模型与 DGP 中的回归变量集不同,则可能会有不同的故事。

在回归情况下,问题正是这个问题。

更一般地说,您还可以错误地指定函数形式。即使在实践中很难发现偏差,灵活性也不是免费的午餐。事实上,只有当你知道真正的函数形式和正确/真实的因变量集时,你的工作才是完美的。

编辑:给出一些定义总是一个好主意。什么是过拟合?从引用的书或维基百科(https://en.wikipedia.org/wiki/Overfitting)很容易验证当估计模型的样本性能明显低于样本外时出现过度拟合。然而,这更多是过度拟合的结果,而不是其定义。它代表了一些规则的起点,例如训练错误率的乐观(上述书籍的第 228 页)。我在这里没有给你一个过拟合的正式定义,但是这涉及一个模型在它不仅适合结构/信号而且还适合噪声时遇到过拟合的事实. 请注意,结构/信号和噪声/错误是在“真实模型”(=DGP)上引用的。由此我们可以理解为什么通用规则有效。

如果真实模型是无噪音的

y=f(X1)其中是正确的自变量集X1

但我们估计

y^=g^(X2)其中是一组错误的自变量和/或是一个不正确的函数形式X2g

不管估计模型的样本内误差是否为零,很有可能他的样本外误差更大。因此,按照标准规则/实践,我们似乎遇到了过拟合,而问题不是过拟合而是偏差。

此外,如果估计模型被很好地指定并且真实模型是无噪声的,则预测误差为零。因此,对于任何指定错误的模型,都不可能过度拟合(即使在样本中,指定良好的模型也是无与伦比的)。此外,如果我们处理无噪声的真实模型,偏差-方差权衡就会消失,即使在预测中,偏差也成为唯一的问题。

我同意当数据生成过程是确定性的时,过度拟合是不可能的。然而,这并不是“好得令人难以置信”,因为泛化仍然是一个问题。

考虑到我们可以将我们的模型看成一个拉格朗日多项式(或任何其他类似“查找表”的插值器),其顺序可以是任何必要的,以获得所有数据的 100% 准确度。f^

每次你给我另一个时,我都会通过添加一些新项来简单地增加模型的复杂性 - 即提高我的多项式的阶数。{x,y}f^

有了确定性的,人们或许可以称其为“完美拟合”。但是我们知道,出于泛化的原因,这样的模型在定义了“过拟合/欠拟合”的训练数据之外可能无法很好地工作。f

然而,有时当人们说“过度拟合”时,他们也意味着“不能很好地概括”,在这种情况下,没有什么能拯救你。我们不能保证在任何情况下都有完美的泛化性能,除非我们对每一个可能的进行采样(在随机情况下通常是无限的),这与说你已经知道并没有太大区别。{x,y}f

编辑

我觉得您已经知道上述内容,并且您的困惑源于此:

“如果有一个范围模型可供选择,高度灵活的模型将具有低偏差和高方差,并且往往会过度拟合。不灵活的模型将具有高偏差和低方差,并且往往会欠拟合。”

在谈论一组特定数据点的性能时,这个概念是有意义的。在考虑所有可能的数据点(“泛化性能”)时,它并不成立。没有任何关于“高度灵活”的模型会明确导致未训练的输入的低偏差。

因此,我将您对欠拟合/过拟合的定义理解为“在训练数据上”。(我的意思是,即使是“适合”这个词也暗示了这一点)。如果您的意思是“概括”,那么您推理中的谬误就是上面引用的文字。

此外,来自关于偏差-方差权衡的维基百科:

“假设复杂模型必须具有高方差(因此具有低偏差)是一个经常犯的错误;高方差模型在某种意义上是‘复杂的’,但反过来不一定是正确的。”

我认为关键是要理解,对于泛化性能,低偏差来自模型的正确性,而不是复杂性。

如果您谈论的是训练集的性能,无原则的复杂性只会减少“偏见”。这不是精确定义的偏差E(ff^)在偏差-方差分解中,它涉及对所有可能输入的期望。

因此,我认为您潜在的困惑是认为高度灵活的模型在期望值(泛化)意义上具有低偏差,而只有当期望值通过训练集上的样本均值(我们在其上定义词“适合”)。

这个想法的一种推论是,如果你有大量的、具有代表性的训练数据,那么一个非常复杂的模型(如现代深度学习的模型)可以降低样本均值误差的偏差,从而接近实际均值。但应该注意的是,大多数成功的大规模模型并不充满“无原则的复杂性”——它们经常利用数据固有的关键结构(例如,对图像使用卷积等)。此外,了解大规模深度模型令人惊讶的泛化能力至今仍是一个研究重点(并且研究泛化能力也可能默默失败的许多方式,例如对抗性输入)。

我们可以将Mitchell (1997) 的《机器学习》一书视为该主题的权威参考。在页。67 他定义过拟合

定义:给定一个假设空间H, 一个假设hH如果存在一些替代假设,则据说过度拟合训练数据hH, 这样h误差小于h在训练示例上,但是h误差小于h在整个实例分布上。

假设您从无噪声多项式函数中获得了一个点样本。您将使用多项式回归模型找到函数。您可以轻松想象给定小样本,您可以找到许多完全适合训练样本的不同解决方案,尽管不能很好地拟合整个分布。一个极端的情况是单个数据点,在这种情况下找到正确的模型是不可能的,所以解决方案肯定不会泛化。

有人可能会争辩说,上面的例子不符合定义,因为h同样适合训练数据h,所以这不满足定义标准。我的反驳是,在这种情况下,许多足够大的神经网络也不能过拟合,你只需要让它们完美地拟合训练数据。

另一个论点可能是这个例子没有抓住重点,因为过度拟合是关于模型拟合噪声,而不是信号,因此它没有推广。首先,上面的定义没有说明噪音。其次,如果是这样,那么我们必须得出结论,该定义不适用无噪声函数,因此这个问题没有答案。