机器算法验证 - 方差和均方误差有什么区别？ - 吾爱随笔录

机器算法验证方差错误

2022-02-02 02:22:15

我很惊讶以前没有人问过这个问题，但我在 stats.stackexchange 上找不到这个问题。

这是计算正态分布样本方差的公式：

\frac{\sum (X - \bar{X})^{2}}{n - 1}

$\frac{\sum(X - \bar{X}) ^2}{n-1}$

这是计算简单线性回归中观测值均方误差的公式：

\frac{\sum (y_{i} - {\hat{y}}_{i})^{2}}{n - 2}

$\frac{\sum(y_i - \hat{y}_i) ^2}{n-2}$

这两个公式有什么区别？我能看到的唯一区别是 MSE 使用。因此，如果这是唯一的区别，为什么不将它们都称为方差，但具有不同的自由度呢？ $n-2$

2个回答

您为 OLS 编写的均方误差隐藏了一些东西：

\frac{\sum_{i}^{n} (y_{i} - {\hat{y}}_{i})^{2}}{n - 2} = \frac{\sum_{i}^{n} {[y_{i} - ({\hat{β}}_{0} + {\hat{β}}_{x} x_{i})]}^{2}}{n - 2}

$\frac{\sum_{i}^{n}(y_i - \hat{y}_i) ^2}{n-2} = \frac{\sum_{i}^{n}\left[y_i - \left(\hat{\beta}_{0} + \hat{\beta}_{x}x_{i}\right)\right] ^2}{n-2}$

请注意，分子对和的函数求和，因此您会失去每个变量的自由度（或者对于每个估计的参数，如果您愿意，可以将一个变量解释为另一个变量的函数），因此。在样本方差的公式中，分子是单个变量的函数，因此分母只损失了一个自由度。 $y$ $x$ $n-2$

但是，您会注意到这些在概念上是相似的数量。样本方差衡量数据在样本均值周围的分布（以平方为单位），而 MSE 衡量数据在样本回归线周围的垂直分布（以平方垂直单位）。

在方差公式中，样本均值近似于总体均值。样本均值是针对具有数据点的给定样本计算的。知道样本均值后，我们只有独立数据点，因为第^个数据点受样本均值约束，因此方差公式中分母中的 ( ) 自由度 (DOF)。 $n$ $n-1$ $n$ $n-1$

为了得到 MSE 公式中 y 的估计值 ( )，我们需要估计（即截距）和（即斜率），所以我们失去了 2 个自由度，这就是MSE 公式中分母中有 $= \beta_{0} + \beta_{1}\times x$ $\beta_{0}$ $\beta_{1}$ $n-2$

其它你可能感兴趣的问题