寻找过度拟合模型导致更大方差估计的证据(在 OLS 下)

机器算法验证 回归 自习 方差 最小二乘
2022-04-07 11:15:02

因此,我一直在尝试以代数方式证明过度拟合模型会导致参数估计的方差值更大。我已经接近了(将问题减少到显示某个矩阵是正定的)但我不太喜欢我采用的方法,我想看看是否有更简单的方法。

如果有人知道使用的好策略或预先存在的证据,将不胜感激,谢谢!

3个回答

您想要的参考资料是Richard Stone的市场需求分析 (JSTOR) ,皇家统计学会杂志,卷。108, No. 3/4 (1945), pp. 286-391。我找不到一个无限制的链接,所以这里是它的要点。

他给出了 OLS 回归量估计方差的公式βk在回归yK变量为

1NKσy2σk21R21Rk2,
在哪里σy2是的估计方差y,σk2是的估计方差xk,Rk2是从回归xkK1剩余的自变量,和N是样本量。该组K已经包含一个常数。

现在我们用一些可怕的数学让 L'Hospital 和 Bernoullis 在他们的坟墓中旋转。

过拟合,修复N并开始添加变量(KN)。当你这样做时,两个R2s 接近 1,因为它们是K. 中间部分保持不变,因为N是固定的。由于您除以越来越接近零的东西,所以第一个分数会增加。

基本上,您要求以概率论来解释奥卡姆剃刀。引用维基百科,奥卡姆剃刀:

是用于解决问题的节俭、经济或简洁的原则。它指出,在相互竞争的假设中,应选择假设最少的假设。

我可以指导你看这篇论文[0]在那里,作者将原始公式的“假设”概念概括和量化为

命题不必要地适应可能的可观察数据的程度

简而言之,给定相等的拟合,更简单的先验具有更高的后验。再次引用维基百科;

所有假设都引入了错误的可能性;如果一个假设不能提高理论的准确性,它唯一的作用就是增加整个理论错误的概率。

从本质上讲,给定观察数据的相等拟合,较简单的模型优于那些可以容纳各种其他可能数据的模型,因为它们具有更高的真实概率

[0]:Jefferys WH 和 Berger JO (1991)。在贝叶斯 Strop 上锐化奥卡姆剃刀。

到目前为止发布的两个答案都很有用 (+1),但让我使用最小描述长度原则以稍微不同的方式呈现这一点。MDL 背后的基本思想与Kolmogorov 复杂性和重现序列所需的最小程序的概念有关。MDL 原则指出,人们应该更喜欢能够以最少的比特Hastie09传达数据的模型。正如香农的源编码定理所示,给定前缀代码(即模型)的预期代码消息长度为:L=ΣaϵAP(a)log2P(a)在哪里A是我们想要传输的所有可能消息的集合;如果我们为无限的消息集写这个(实际上是R)L=P(a)log2P(a)da. 因此可以看出,就我们需要的比特而言log2P(a)位传输随机变量a具有概率密度函数P(a). 现在考虑到在传输数据集时y的模型输出必须通过发送模型的最佳拟合参数来有效地传输它mi,θ,以及原始数据和拟合数据之间的差异,可以将总长度写为:

L=(log2Pr(θ|mi))+(log2Pr(y|θ,mi))
因此,虽然您将通过过度拟合来减少第二项,但您将通过添加“冗余”信息来增加您的第一项。从本质上讲,您将增加θ 不必要的。

这绝不是一个(正式的)证明,但我认为考虑起来可能很有趣。:)