为什么除以n - 2n−2对于残差标准误差

机器算法验证 回归
2022-03-07 14:14:04

我只是在看一个关于统计学的讲座,有人在计算一个叫做残差标准误差的东西。它看起来很像找到残差平方的平均值,残差是模型的预测值与实际值之间的差异。所以对于线性拟合,预测是y^(xi)=mxi+b实际值为yi. 所以残差是ri=(yiy^(xi)). 残差标准误为1n2iri2. 我不明白为什么要除以n2是必要的?

更新:我有一个更好的主意。如果只有两个数据点,那么残差都将为零。所以你不能只用两点来估计误差。但这仍然不能解释为什么除以n2是个好主意。它只解释了为什么公式未定义n=2.

4个回答

您使用残差来估计误差的分布。 https://en.wikipedia.org/wiki/Errors_and_residuals,但这些是不同的东西。

  • 错误是“真实”模型包含的随机性
  • 残差是您在模型拟合和测量之间“观察到”的差异。

残差与错误不相似。当您拟合模型时,您将拟合模型加上误差项。这意味着除了模型之外,拟合倾向于拟合部分误差项,这实际上将减少与真实误差相关的残差(即残差 < 误差,在这种特殊情况下)residuals=error/(n2))。

模型的参数越多(模型必须拟合、掩盖、部分误差项的自由度越多),残差与误差的真实分布的相似度就越小。

所以表达式ri2n2ri作为“剩余”术语,但希望在“错误”术语中表达一些变化的想法,为了做到这一点,它需要包括“n2' 而不是 'n' 项,因为残差项有轻微的偏差。

问题是,β估计系数以最小化 i=1n(yiy^i)2所以n1i=1n(yiy^i)2倾向于低估σ2. 这也是我们经常除以n1在估计单变量分布的方差时。在简单的线性回归情况下,这个问题并没有那么糟糕,但是当p变大,收缩可能很大。出于这个原因,我们通常更喜欢无偏估计(np)1i=1n(yiy^i)2因为它没有这个缺陷。

我们在估计误差方差时使用 n-2 df 而不是 n-1 的原因是每个方程中估计有两个参数,我们从观察数中减去 2 以获得 df。这个假设是 Chow 检验的基础,它解释了两个子周期中真实方差的无偏估计。因此,对于数学计算,我指的是 Chow 检验。

这是直观的答案。

假设您需要制作一条回归线。

n=1数据输入你不能做一行。

n=2您可以只输入一行数据条目。由于您可以制作一条且只有一条线0=n2自由程度。

n您将获得的积分n2自由程度。