在他的书中,Bishop 声称过度拟合是由最大似然估计量的一个不幸性质引起的。我真的不明白 MLE 与过度拟合的关系。
对我来说,粗略地说,过拟合与模型复杂性有关,即我拥有的参数越多,我的模型就越倾向于过拟合(即,对随机噪声进行建模)。
然而,最大似然估计只是从我的样本(或训练集)估计统计数据的一种方法。据我了解,它并没有调节参数的数量,因此我看不到 MLE 和过度拟合之间的联系。
此外,最大似然估计量通常是有偏差的。但是有偏见的模型更倾向于欠拟合而不是过拟合。
1.) 这两件事有什么关系,MLE 是如何导致过拟合的?
2.) 是否有“数学”证明,即是否可以用公式来说明这两件事是如何联系起来的?(因为这里已经问过一个类似的问题,但只有相当挥手的答案)
3.) Bishop 声称是过度拟合的原因是 MLE 的哪个“不幸属性”?