什么是“过度拟合”的真实例子?

机器算法验证 过拟合
2022-02-03 18:47:33

我有点理解“过度拟合”的含义,但我需要帮助来了解如何提出一个适用于过度拟合的真实示例。

4个回答

这是来自 xkcd 的总统选举时间序列模型 的一个很好的例子:在此处输入图像描述

只有56次总统选举和43位总统。这不是很多可以学习的数据。当预测变量空间扩展到包括假牙和名字的拼字游戏点值等内容时,模型很容易从拟合数据(信号)的可概括特征开始匹配噪声。发生这种情况时,对历史数据的拟合可能会提高,但该模型在用于对未来总统选举进行推断时将惨遭失败。

我最喜欢的是美国人口普查人口与时间的 Matlab 示例:

  • 线性模型非常好
  • 二次模型更接近
  • 四次模型预测明年开始的全歼

(至少我真诚地希望这是一个过拟合的例子)

http://www.mathworks.com/help/curvefit/examples/polynomial-curve-fitting.html#zmw57dd0e115在此处输入图像描述

陈等人的研究。(2013) 将两个三次方拟合为假设的预期寿命不连续性作为纬度的函数。

Chen Y.、Ebenstein, A.、Greenstone, M. 和 Li, H. 2013。中国淮河政策持续暴露于空气污染对预期寿命影响的证据。美国国家科学院院刊110:12936-12941。 抽象的

尽管它在优秀的期刊上发表等等,得到杰出人士的默许等等,但我仍将其作为过度拟合的初步例子。

一个明显的迹象是三次方的不合理性。拟合三次隐含地假设预期寿命会随着您居住的纬度的三次多项式而变化是有原因的。这似乎相当不可信:很难想象一种合理的物理机制会导致这种效果。

有关本文的更详细分析,另请参阅以下博客文章:关于持续使用多项式回归对因果推理的影响的证据(声称煤炭供暖正在使 50 亿人的寿命缩短 5 年)

2014 年 3 月 14 日发表在《科学》杂志上的一篇文章中,David Lazer、Ryan Kennedy、Gary King 和 Alessandro Vespignani 指出了Google 流感趋势中的问题,他们将这些问题归咎于过度拟合。

数字

以下是他们讲述这个故事的方式,包括他们对过度拟合性质的解释以及导致算法失败的原因:

2013 年 2 月,... Nature 报告称,GFT 预测的流感样疾病 (ILI) 就诊比例是疾病控制和预防中心 (CDC) 的两倍多...。尽管 GFT 是为预测 CDC 报告而构建的,但还是发生了这种情况。...

本质上,该方法是在 5000 万个搜索词中找到最佳匹配项,以适应 1152 个数据点。找到与流感倾向相匹配但在结构上不相关,因此不预测未来的搜索词的几率非常高。事实上,GFT 开发人员报告说,他们淘汰了与流感无关但与 CDC 数据密切相关的季节性搜索词,例如与高中篮球相关的搜索词。这应该是对大数据过度拟合少数案例的警告——这是数据分析中的一个标准问题。当 GFT 完全错过了非季节性的 2009 年 A-H1N1 流感大流行时,这种丢弃特殊搜索词的临时方法失败了。

[强调补充。]