因此,我一直在尝试以代数方式证明过度拟合模型会导致参数估计的方差值更大。我已经接近了(将问题减少到显示某个矩阵是正定的)但我不太喜欢我采用的方法,我想看看是否有更简单的方法。
如果有人知道使用的好策略或预先存在的证据,将不胜感激,谢谢!
因此,我一直在尝试以代数方式证明过度拟合模型会导致参数估计的方差值更大。我已经接近了(将问题减少到显示某个矩阵是正定的)但我不太喜欢我采用的方法,我想看看是否有更简单的方法。
如果有人知道使用的好策略或预先存在的证据,将不胜感激,谢谢!
您想要的参考资料是Richard Stone的市场需求分析 (JSTOR) ,皇家统计学会杂志,卷。108, No. 3/4 (1945), pp. 286-391。我找不到一个无限制的链接,所以这里是它的要点。
他给出了 OLS 回归量估计方差的公式在回归上变量为
现在我们用一些可怕的数学让 L'Hospital 和 Bernoullis 在他们的坟墓中旋转。
过拟合,修复并开始添加变量()。当你这样做时,两个s 接近 1,因为它们是. 中间部分保持不变,因为是固定的。由于您除以越来越接近零的东西,所以第一个分数会增加。
基本上,您要求以概率论来解释奥卡姆剃刀。引用维基百科,奥卡姆剃刀:
是用于解决问题的节俭、经济或简洁的原则。它指出,在相互竞争的假设中,应选择假设最少的假设。
我可以指导你看这篇论文[0]。在那里,作者将原始公式的“假设”概念概括和量化为
命题不必要地适应可能的可观察数据的程度
简而言之,给定相等的拟合,更简单的先验具有更高的后验。再次引用维基百科;
所有假设都引入了错误的可能性;如果一个假设不能提高理论的准确性,它唯一的作用就是增加整个理论错误的概率。
从本质上讲,给定观察数据的相等拟合,较简单的模型优于那些可以容纳各种其他可能数据的模型,因为它们具有更高的真实概率。
[0]:Jefferys WH 和 Berger JO (1991)。在贝叶斯 Strop 上锐化奥卡姆剃刀。
到目前为止发布的两个答案都很有用 (+1),但让我使用最小描述长度原则以稍微不同的方式呈现这一点。MDL 背后的基本思想与Kolmogorov 复杂性和重现序列所需的最小程序的概念有关。MDL 原则指出,人们应该更喜欢能够以最少的比特Hastie09传达数据的模型。正如香农的源编码定理所示,给定前缀代码(即模型)的预期代码消息长度为:在哪里是我们想要传输的所有可能消息的集合;如果我们为无限的消息集写这个(实际上是). 因此可以看出,就我们需要的比特而言位传输随机变量具有概率密度函数. 现在考虑到在传输数据集时的模型输出必须通过发送模型的最佳拟合参数来有效地传输它,,以及原始数据和拟合数据之间的差异,可以将总长度写为:
这绝不是一个(正式的)证明,但我认为考虑起来可能很有趣。:)