谁发明了过拟合的概念?

数据挖掘 机器学习 过拟合 术语 参考请求 历史
2021-09-28 11:56:03

我列出了到目前为止我找到的参考资料。不久,该术语的首次出现是在 1670 年,近义词的首次出现是在 1827 年,生物学论文中的首次出现是在 1923 年,统计学中的首次出现是在 1935 年。但是,参考文献表明存在差距这个年表。

我找到的最早的参考资料是飞笔人;或者,威廉·霍普金斯(速记老师)在 1670 年的短文艺术。但是,它是一张以“过度拟合”为其中之一的单词表,上下文或含义不清楚。

我检查了 1800 年之前的其他参考文献,那些是转录错误,“over, fit”或“overfet”。

我在上下文中发现的最早出现是在 1827 年的“神秘的艺人和数学伙伴……,第 1 期”中说:“我虽然对诗歌没有过度拟合,但 7 将大胆地为机智制定规则;” 因此这里的过度拟合的意思是“拟合得太好”,但具有积极意义。

达尔文1859年的《论物种起源》似乎使拟合的概念流行起来。

布雷,查尔斯一世。“适合展示的牲畜。” 公告(科罗拉多农业学院。推广服务);171A(1923 年)。:“他们相信这些几乎同样有价值,而且与全脂牛奶相比,过度拟合猪的危险更小。”

1934 年的论文《东方 Percheron 未来的 22 年》提到了过拟合的惩罚,但涉及种马。

生物学季评1935年 9 月第 10 卷,第 3 页。341 – 377,说:“也许我们已经过时了,但对我们来说,基于 13 次观察的六变量分析似乎有点过拟合”。所以它在 1935 年是众所周知的,也许已经有点过时了。

我发现的第一个关于过度拟合的统计参考出现在1952 年的“时间序列拟合测试”中。但它说:“这样的毕业意味着严重的过度拟合,但这是可以允许的。” 使用过拟合作为一个众所周知的概念。

维基百科关于过拟合引用牛津词典条目的文章声称:“起源于 1930 年代;最早的使用见于《生物学季刊》。来自过度拟合。”

参考文献可能是The Quarterly Review of Biology Sep 1935 Volume 10, Number 3pp。341 – 377,但我无法验证。

我在 Google Scholar 中找不到该论文。在谷歌 ngram 查看器中,似乎使用开始于 1885 年左右。查看那个时期的谷歌书显示了关于羊的参考资料。

我很高兴得知绵羊是 AI 核心概念的起源,但我希望看到参考资料。也欢迎与羊无关的参考。

1个回答

是的!似乎第一个关于过度拟合的统计参考出现在The Quarterly Review of Biology它说:“也许我们是过时的,但对我们来说,基于 13 次观察的六变量分析似乎很像overfitting

我附上该特定页面的屏幕截图供您参考。 截屏