对于随机数据生成过程 (DGP)
和产生点预测
的模型,偏差-方差分解为
(Hastie et al. “The Elements of Statistical Learning”(2nd edition, 2009)Section 7.3 p. 223;我使用符号而不是)。如果有范围模型可供选择,则高度灵活的模型将具有低偏差和高方差,并且往往会过拟合。不灵活的将具有高偏差和低方差,并且往往会欠拟合。产生最低预期平方误差的模型将介于两个极端之间。
对于没有附加随机误差的确定性DGP,
偏差-方差分解告诉我们方差和不可约误差为零,只剩下偏差。如果有一个范围模型可供选择,选择最灵活的模型将产生最低的偏差,从而产生最低的预期平方误差。这表明当 DGP 是确定性的时,不可能过拟合。
对我来说,这听起来好得令人难以置信。也许需要注意的是,这里的模型使用与 DGP 相同的回归量集,即所有相关变量都被考虑在内,不包括不相关的变量。这在实践中不太可能成立。如果模型与 DGP 中的回归变量集不同,则可能会有不同的故事。
问题:
- 我为什么不可能过度拟合确定性 DGP 的推理是否有意义?如果不是,为什么?
- 如果 DGP 和模型中使用的回归量不同,推理是否会失效?如果是这样,怎么做?
更新:在实践中,许多 DGP 可以被认为是完全确定的或几乎确定的,随机分量可以忽略不计,即使它们的机制可能对我们来说太复杂而无法理解,更不用说准确建模了。如果 Q1 的答案是推理是合理的,而 Q2 的答案是推理没有崩溃,正如@markowitz 所建议的那样,那么在实践中应该很少关注过度拟合。这对我来说似乎违反直觉......