方差和均方误差有什么区别?

机器算法验证 方差 错误
2022-02-02 02:22:15

我很惊讶以前没有人问过这个问题,但我在 stats.stackexchange 上找不到这个问题。

这是计算正态分布样本方差的公式:

(XX¯)2n1

这是计算简单线性回归中观测值均方误差的公式:

(yiy^i)2n2

这两个公式有什么区别?我能看到的唯一区别是 MSE 使用因此,如果这是唯一的区别,为什么不将它们都称为方差,但具有不同的自由度呢?n2

2个回答

您为 OLS 编写的均方误差隐藏了一些东西:

in(yiy^i)2n2=in[yi(β^0+β^xxi)]2n2

请注意,分子对的函数求和,因此您会失去每个变量的自由度(或者对于每个估计的参数,如果您愿意,可以将一个变量解释为另一个变量的函数),因此在样本方差的公式中,分子是单个变量的函数,因此分母只损失了一个自由度。yxn2

但是,您会注意到这些在概念上是相似的数量。样本方差衡量数据在样本均值周围的分布(以平方为单位),而 MSE 衡量数据在样本回归线周围的垂直分布(以平方垂直单位)。

在方差公式中,样本均值近似于总体均值。样本均值是针对具有数据点的给定样本计算的。知道样本均值后,我们只有独立数据点,因为第数据点受样本均值约束,因此方差公式中分母中的 ( ) 自由度 (DOF)。nn1nn1

为了得到 MSE 公式中 y 的估计值 ( ),我们需要估计(即截距)和(即斜率),所以我们失去了 2 个自由度,这就是MSE 公式中分母中有=β0+β1×xβ0β1n2