机器算法验证 - 为什么当包含截距时，线性回归中的残差总和为零？ - 吾爱随笔录

为什么当包含截距时，线性回归中的残差总和为零？

机器算法验证回归残差

2022-01-22 21:16:54

我正在学习关于回归模型的课程，并且为线性回归提供的属性之一是，当包含截距时，残差总和为零。

有人可以很好地解释为什么会这样吗？

4个回答

这直接来自正规方程，即 OLS 估计器求解的方程，

X^{'} \underset{e}{\underset{⏟}{(y - X b)}} = 0

$\mathbf{X}^{\prime} \underbrace{\left( \mathbf{y} - \mathbf{X} \mathbf{b} \right)}_{\mathbf{e}} = 0$

括号内的向量当然是残差向量或投影 $\mathbf{y}$ 到列空间的正交补上 $X$ ，如果你喜欢线性代数。现在在 $\mathbf{X}$ 矩阵，顺便说一下，它不必像通常那样在第一列中，导致

1^{'} e = 0 ⟹ \sum_{i = 1}^{n} e_{i} = 0

$\mathbf{1}^{\prime} \mathbf{e} = 0 \implies \sum_{i=1}^n e_i = 0$

在二变量问题中，这更容易看出，因为最小化残差平方和使我们得到

\sum_{i = 1}^{n} (y_{i} - a - b x_{i}) = 0

$\sum_{i=1}^n \left(y_i - a - b x_i \right) = 0$

当我们对截距求导时。由此我们继续获得熟悉的估计量

a = \bar{y} - b \bar{x}

$a = \bar{y} - b \bar{x}$

我们再次看到我们的估计器的构造强加了这个条件。

如果您正在寻找一个相当直观的解释。

从某种意义上说，线性回归模型不过是一种奇特的均值。求算术平均值 $\bar{x}$ 超过一些值 $x_1, x_2, \dots, x_n$ ，我们发现一个值是中心性的度量，从某种意义上说，所有偏差的总和（其中每个偏差定义为 $u_i = x_i - \bar{x}$ ) 平均值的右侧等于该平均值左侧的所有偏差的总和。这种衡量方式没有任何内在的原因是好的，更不用说描述样本均值的最佳方式了，但它肯定是直观和实用的。重要的一点是，通过以这种方式定义算术平均值，必然会得出，一旦我们构造了算术平均值，根据定义，所有与该平均值的偏差必须总和为零！

在线性回归中，这没有什么不同。我们拟合这条线，使得我们的拟合值（位于回归线上）与线上方的实际值之间的所有差异之和恰好等于回归线与低于回归线的所有值之间的所有差异之和线。同样，没有内在的原因，为什么这是构建拟合的最佳方式，但它直截了当且直观地吸引人。就像算术平均值一样：通过以这种方式构造我们的拟合值，通过构造，它必然遵循该线的所有偏差必须总和为零，否则这将不是 OLS 回归。

当一个截距包含在多元线性回归中时，

{\hat{y}}_{i} = β_{0} + β_{1} x_{i, 1} + β_{2} x_{i, 2} + \dots + β_{p} x_{i, p}

$\hat{y}_i = \beta_0 + \beta_1x_{i,1} + \beta_2x_{i,2} +…+ \beta_px_{i,p}$ 在最小二乘回归中，误差的平方和被最小化。

S S E = \sum_{i = 1}^{n} {(e_{i})}^{2} = \sum_{i = 1}^{n} {(y_{i} - \hat{y_{i}})}^{2} = \sum_{i = 1}^{n} {(y_{i} - β_{0} - β_{1} x_{i, 1} - β_{2} x_{i, 2} - \dots - β_{p} x_{i, p})}^{2}

$SSE=\displaystyle\sum\limits_{i=1}^n \left(e_i \right)^2= \sum_{i=1}^n\left(y_i - \hat{y_i} \right)^2= \sum_{i=1}^n\left(y_i -\beta_0- \beta_1x_{i,1}-\beta_2x_{i,2}-…- \beta_px_{i,p} \right)^2$ 对 SSE 取偏导数

β_{0}

$\beta_0$ 并将其设置为零。

\frac{\partial S S E}{\partial β_{0}} = \sum_{i = 1}^{n} 2 {(y_{i} - β_{0} - β_{1} x_{i, 1} - β_{2} x_{i, 2} - \dots - β_{p} x_{i, p})}^{1} (- 1) = - 2 \sum_{i = 1}^{n} e_{i} = 0

$\frac{\partial{SSE}}{\partial{\beta_0}} = \sum_{i=1}^n 2\left(y_i -\beta_0- \beta_1x_{i,1}-\beta_2x_{i,2}-…- \beta_px_{i,p} \right)^1 (-1) =-2\displaystyle\sum\limits_{i=1}^ne_i=0$ 因此，当线性回归中包含截距时，残差总和为零。

一个关键的观察结果是，因为模型有截距， $1$ ，即设计矩阵的第一列 $X$ , 可以写成

1 = X e,

$1 = Xe,$ 在哪里

e

$e$ 是一个全为零但第一个分量为 1 的列向量。另请注意，在矩阵表示法中，残差之和只是

1^{T} (y - \hat{y})

$1^T(y - \hat{y})$ .

所以，

\begin{aligned} 1^{T} (y - \hat{y}) = 1^{T} (I - H) y \\ = & e^{T} X^{T} (I - X (X^{T} X)^{- 1} X^{T}) y \\ = & e^{T} (X^{T} - X^{T} X (X^{T} X)^{- 1} X^{T}) y \\ = & e^{T} (X^{T} - X^{T}) y \\ = & 0. \end{aligned}

$\begin{align} & 1^T(y - \hat{y}) = 1^T(I - H)y \\ = & e^TX^T(I - X(X^TX)^{-1}X^T)y \\ = & e^T(X^T - X^TX(X^TX)^{-1}X^T)y \\ = & e^T(X^T - X^T)y \\ = & 0. \end{align}$

其它你可能感兴趣的问题

上一篇随机森林过拟合？下一篇这个图表的名称是什么，显示了假阳性率和真阳性率，它是如何生成的？