最大似然估计和过拟合

机器算法验证 最大似然 过拟合
2022-03-27 21:35:18

在他的书中,Bishop 声称过度拟合是由最大似然估计量的一个不幸性质引起的。我真的不明白 MLE 与过度拟合的关系。

对我来说,粗略地说,过拟合与模型复杂性有关,即我拥有的参数越多,我的模型就越倾向于过拟合(即,对随机噪声进行建模)。

然而,最大似然估计只是从我的样本(或训练集)估计统计数据的一种方法。据我了解,它并没有调节参数的数量,因此我看不到 MLE 和过度拟合之间的联系。

此外,最大似然估计量通常是有偏差的。但是有偏见的模型更倾向于欠拟合而不是过拟合。

1.) 这两件事有什么关系,MLE 是如何导致过拟合的?

2.) 是否有“数学”证明,即是否可以用公式来说明这两件事是如何联系起来的?(因为这里已经问过一个类似的问题,但只有相当挥手的答案)

3.) Bishop 声称是过度拟合的原因是 MLE 的哪个“不幸属性”?

4个回答

理解 Bishop 陈述的关键在于第 3.2 节的第一段第二句:“……如果使用尺寸有限”。

问题的出现是因为无论您向模型添加多少参数,MLE 技术都会使用它们来拟合越来越多的数据(直到您有 100% 准确拟合的点),并且很多“拟合越来越多的数据”是拟合随机性 - 即过度拟合。例如,如果我有100数据点,并且正在拟合度数多项式99对于数据,MLE 会给我一个完美的样本内拟合,但这种拟合根本不能很好地概括——我真的不能指望用这个模型实现接近 100% 准确的预测。因为 MLE 没有以任何方式进行正则化,所以最大似然框架内没有机制可以防止这种过度拟合的发生。这就是毕晓普所说的“不幸财产”。你必须自己动手,通过构建和重组你的模型,希望是适当的。您的说法“......它不调节参数的数量......”实际上是MLE与过度拟合之间联系的症结所在!

现在这一切都很好,但是如果没有其他模型估计方法可以帮助过度拟合,我们就不能说这是 MLE 的一个不幸属性——这将是所有人的不幸属性模型估计技术,因此不值得在将 MLE 与其他技术进行比较的背景下进行讨论。然而,还有其他模型估计方法 - Lasso、Ridge 回归和 Elastic Net,从经典统计传统中仅举三例,还有贝叶斯方法 - 作为估计过程的一部分,它们确实试图限制过度拟合。人们也可以将稳健统计的整个领域视为关于推导估计量和测试,这些估计量和测试比 MLE 更不容易过度拟合。自然,这些替代方案并没有消除对模型规范等过程采取一些谨慎态度的需要,但它们有很大帮助,因此提供了与 MLE 的有效对比,而 MLE 完全没有帮助。

Bishop 可能一直在谈论条件概率表,或贝叶斯网络中经常使用的数据的“分组”聚合。这些概率的 MLE 过拟合,因为它对训练数据过于特殊,可能无法泛化。一旦您开始向该分组添加变量并将数据切片非常细,这一点尤其如此。这些组概率的 MLE 需要通过先验分布、池化或其他方法进行某种正则化。

MLE 是一种用于从模型估计参数的技术。不仅是您对特定变量假设的分布的参数估计,还包括包含分布假设的任何模型的参数,例如广义线性模型或基于依赖项的条件分布假设的基于树的模型。虽然更复杂的模型可以增加训练的可能性,但这并不一定意味着该模型在新的未见示例上具有同样高的可能性。因此,我们应该在单独的测试集上查看似然性,或者对模型复杂度的模型选择标准(如 AIC、BIC)进行惩罚。

对于线性可分的数据集,最大似然可能表现出严重的过拟合。这是因为最大似然解出现在对应于 σ = 0.5 的超平面,相当于 w^Tφ = 0,将两个类分开并且 w 的大小趋于无穷大,然后导致决策边界的高度波动。在这种情况下,逻辑 sigmoid 函数在特征空间中变得无限陡峭,对应于 Heaviside 阶跃函数,因此每个类 k 的每个训练点都被分配了一个后验概率 p(C_k|x) = 1。