我很惊讶以前没有人问过这个问题,但我在 stats.stackexchange 上找不到这个问题。
这是计算正态分布样本方差的公式:
这是计算简单线性回归中观测值均方误差的公式:
这两个公式有什么区别?我能看到的唯一区别是 MSE 使用。因此,如果这是唯一的区别,为什么不将它们都称为方差,但具有不同的自由度呢?
我很惊讶以前没有人问过这个问题,但我在 stats.stackexchange 上找不到这个问题。
这是计算正态分布样本方差的公式:
这是计算简单线性回归中观测值均方误差的公式:
这两个公式有什么区别?我能看到的唯一区别是 MSE 使用。因此,如果这是唯一的区别,为什么不将它们都称为方差,但具有不同的自由度呢?
您为 OLS 编写的均方误差隐藏了一些东西:
请注意,分子对和的函数求和,因此您会失去每个变量的自由度(或者对于每个估计的参数,如果您愿意,可以将一个变量解释为另一个变量的函数),因此。在样本方差的公式中,分子是单个变量的函数,因此分母只损失了一个自由度。
但是,您会注意到这些在概念上是相似的数量。样本方差衡量数据在样本均值周围的分布(以平方为单位),而 MSE 衡量数据在样本回归线周围的垂直分布(以平方垂直单位)。
在方差公式中,样本均值近似于总体均值。样本均值是针对具有数据点的给定样本计算的。知道样本均值后,我们只有独立数据点,因为第个数据点受样本均值约束,因此方差公式中分母中的 ( ) 自由度 (DOF)。
为了得到 MSE 公式中 y 的估计值 ( ),我们需要估计(即截距)和(即斜率),所以我们失去了 2 个自由度,这就是MSE 公式中分母中有