我只是在看一个关于统计学的讲座,有人在计算一个叫做残差标准误差的东西。它看起来很像找到残差平方的平均值,残差是模型的预测值与实际值之间的差异。所以对于线性拟合,预测是实际值为. 所以残差是. 残差标准误为. 我不明白为什么要除以是必要的?
更新:我有一个更好的主意。如果只有两个数据点,那么残差都将为零。所以你不能只用两点来估计误差。但这仍然不能解释为什么除以是个好主意。它只解释了为什么公式未定义.
我只是在看一个关于统计学的讲座,有人在计算一个叫做残差标准误差的东西。它看起来很像找到残差平方的平均值,残差是模型的预测值与实际值之间的差异。所以对于线性拟合,预测是实际值为. 所以残差是. 残差标准误为. 我不明白为什么要除以是必要的?
更新:我有一个更好的主意。如果只有两个数据点,那么残差都将为零。所以你不能只用两点来估计误差。但这仍然不能解释为什么除以是个好主意。它只解释了为什么公式未定义.
您使用残差来估计误差的分布。 https://en.wikipedia.org/wiki/Errors_and_residuals,但这些是不同的东西。
残差与错误不相似。当您拟合模型时,您将拟合模型加上误差项。这意味着除了模型之外,拟合倾向于拟合部分误差项,这实际上将减少与真实误差相关的残差(即残差 < 误差,在这种特殊情况下))。
模型的参数越多(模型必须拟合、掩盖、部分误差项的自由度越多),残差与误差的真实分布的相似度就越小。
所以表达式指作为“剩余”术语,但希望在“错误”术语中表达一些变化的想法,为了做到这一点,它需要包括“' 而不是 '' 项,因为残差项有轻微的偏差。
问题是,估计系数以最小化 所以倾向于低估. 这也是我们经常除以在估计单变量分布的方差时。在简单的线性回归情况下,这个问题并没有那么糟糕,但是当变大,收缩可能很大。出于这个原因,我们通常更喜欢无偏估计因为它没有这个缺陷。
我们在估计误差方差时使用 n-2 df 而不是 n-1 的原因是每个方程中估计有两个参数,我们从观察数中减去 2 以获得 df。这个假设是 Chow 检验的基础,它解释了两个子周期中真实方差的无偏估计。因此,对于数学计算,我指的是 Chow 检验。
这是直观的答案。
假设您需要制作一条回归线。
和数据输入你不能做一行。
和您可以只输入一行数据条目。由于您可以制作一条且只有一条线自由程度。
和您将获得的积分自由程度。