我想知道为什么我们如此关心过度拟合。我们知道统计模型是告诉我们一些信息的工具,但它们甚至不是完全准确的。
为什么即使“所有模型都错了”,我们还要担心过拟合?
Box 的引述是“所有模型都是错误的,但有些是有用的”。
如果我们有严重的过度拟合,我们的模型将无法对新数据进行预测。
为什么即使“所有模型都是错误的”,我们也会担心过度拟合?
您的问题似乎是Nirvana fallacy的变体,暗示如果没有完美的模型,那么每个模型都同样令人满意(因此模型中的缺陷是无关紧要的)。请注意,您可以很容易地就模型中的任何缺陷提出同样的问题:
即使“所有模型都是错误的”,为什么我们还要担心最大似然估计?
即使“所有模型都是错误的”,为什么我们还要担心标准错误?
即使“所有模型都错了”,为什么我们还要担心清理数据?
即使“所有模型都是错误的”,为什么我们还要担心算术是否正确?
所有这些问题的正确答案是,我们不应该让完美成为善的敌人——即使“所有模型都是错误的”,错误较少的模型仍然比错误较多的模型更可取。
完整的报价是“所有模型都是错误的,但有些是有用的”。我们关心过度拟合,因为我们仍然希望我们的模型有用。
如果您熟悉Bias-variance tradeoff,“所有模型都是错误的”陈述大致相当于说“所有模型都有非零偏差”。过度拟合是一个问题,虽然我们可以增加模型中的参数数量以减少偏差,但通常我们拥有的参数越多,我们的估计中的方差就越大。一个有用的模型是在足够灵活以减少偏差之间取得平衡,但又不能灵活到方差太高。
Citroën 2CV在许多方面都是一辆糟糕的汽车。缓慢,粗制且便宜。但它用途广泛,可以在铺好的道路和新犁过的土地上有效运行。
相比之下, F1 赛车被视为汽车工程的巅峰之作。快速、精确且仅使用最优质的组件。不过,我不喜欢驾驶一辆穿过开阔的场地。
2CV具有普遍适用性,而F1赛车只有非常具体的适用性。在专业工程师团队的帮助下,F1 赛车已经过度适应了尽快绕赛道行驶的特定问题,以监控、评估和解决高性能运行可能出现的任何问题。
同样,过度拟合的模型在过度拟合的情况下表现良好,但在其他情况下表现不佳(或根本没有)。具有通用性的模型如果暴露在您无法控制的不同环境中,即使它不如特定模型好,它也会更有用。