我在讲座中遇到了这个问题,但不明白为什么:
为什么最大似然估计存在过拟合问题?给定数据 X 并且您想要估计参数 theta。
一个例子会很有帮助。
我在讲座中遇到了这个问题,但不明白为什么:
为什么最大似然估计存在过拟合问题?给定数据 X 并且您想要估计参数 theta。
一个例子会很有帮助。
最大似然并没有告诉我们太多,除了我们的估计是我们可以根据数据给出的最好的估计。它没有告诉我们任何关于估计质量的信息,也没有告诉我们我们可以从估计中实际预测任何东西的能力。
过度拟合意味着,我们正在估计一些参数,这对我们的实际预测帮助很小。最大可能性中没有任何东西可以帮助我们估计我们的预测有多好。实际上,可以将可能性增加到任何界限之外,而根本不增加预测准确性。
为了说明在不提高预测质量的情况下增加可能性的最后一点,让我举一个例子。假设我们想预测某一天在美国发生的车祸数量。作为预测器,我们只有好奇号火星车分析的岩石数量。现在,预测变量似乎不太可能与车祸次数有任何关系,但我们仍然可以使用该预测变量生成最大似然模型。最大似然只告诉我们,在给定当前数据集的情况下,这是我们能做的最好的事情,即使这个“我们能做的最好”可能仍然是完全的垃圾。由于预测变量和要预测的数字之间没有关系,所以除了过度拟合外,我们无能为力。
现在让我们更进一步,假设我们想要进一步增加我们的最大可能性。我们将当天木星的平均距离作为另一个预测指标。同样,这没有预测价值。但是我们对模型的最大可能性会增加。它不能减少,因为我们仍然包括原始预测器,所以忽略木星距离的模型是可能的模型,这与之前的模型具有完全相同的可能性。所以我们在不增加预测值的情况下增加可能性,即我们过度拟合。
让我们进一步假设有人提供了一个模型,该模型基于一些合理的预测变量(当天驾驶的汽车数量,当天是否是假期/周末/工作日等)来估计车祸次数,并且该模型给了我们一个可能性的。现在我们可以通过添加来自恒星和行星星座的任意数字来实现我们的“占星术”模型。如果我们只添加足够多的星座,我们可以让我们的“占星”模型具有最大似然 L。这是否意味着我们应该放弃合理的模型而使用占星术模型?当然不是。
这应该表明过拟合总是存在的,除非我们引入一些方法来防止过拟合。
有些模型太灵活了:在这些情况下,最大似然估计器可以有效地“记住”数据——信号和噪声。这些考虑促使降低某些模型的灵活性,例如,通过某种正则化。
在我看来,使用最大似然法造成过拟合的原因是参数的值是根据当前数据估计的。您应该根据未来数据而不是当前数据得出参数值。如果您对此想法感兴趣,请参阅下面的论文。
Takezawa, K. (2012):“AIC 的正态误差模型修订版”,开放统计杂志,卷。2 2012 年第 3 期,第 309-312 页。doi: 10.4236/ojs.2012.23038。http://www.scirp.org/journal/PaperInformation.aspx?paperID=20651