残差平方和而不是残差总和

机器算法验证 回归
2022-03-30 19:41:51

在我阅读有关统计的书时,我遇到了线性回归的主题。在这一章中,作者首先解释说你想最小化残差,以使你的 y = a + bx 尽可能好:我明白这一点,但是在本章的中间,残差突然变成了 sum残差的平方。为什么这样做?我一直在谷歌搜索,但找不到正确的答案。谁愿意帮助我理解为什么使用残差的平方和而不仅仅是残差的总和?

亲切的问候,巴斯

4个回答

残差之和将始终为 0,因此这不起作用。

一个更有趣的问题是,为什么使用残差平方和与残差绝对值之和。这对大残差的惩罚比对小残差的惩罚更大。我相信这样做的原因是因为数学计算起来更容易,而且在计算机出现之前,使用平方残差估计回归要容易得多。如今,这个理由不再适用,平均绝对偏差回归确实是可能的。它是稳健回归的一种形式。

激发平方残差的另一种方法是做出通常合理的假设,即残差是高斯分布的。换句话说,我们假设

y=ax+b+ε
对于高斯噪声ε. 在这种情况下,参数的对数似然a,b是(谁)给的
logp(yx,a,b)=logN(y;ax+b,1)=12(y[a+bx])2+const,
因此最大化似然性等于最小化残差平方。

如果噪音ε拉普拉斯分布,残差的绝对值会更合适。但由于中心极限定理,高斯噪声更为常见。

很好的答案,但也许我可以给出更直观的答案。假设您正在拟合一个线性模型,此处由一条由斜率和截距参数化的直线表示。

每个残差都是每个数据点和线之间的弹簧,它试图将线拉到自己身上。 在此处输入图像描述
明智的做法是找到最小化系统能量的斜率和截距。每个弹簧中的能量(即剩余能量)与其长度的平方成正比。所以系统所做的是最小化残差平方和,即最小化弹簧中的能量总和。

除了 Peter Flom 和 Lucas 提出的观点之外,最小化残差平方和的一个原因是高斯-马尔可夫定理这表示如果满足经典线性回归的假设,则普通最小二乘估计器比任何其他线性无偏估计器更有效。“更有效”意味着估计系数的方差较低;换句话说,估计的系数更精确。即使残差不具有正态分布或高斯分布,该定理仍然成立。

但是,该定理与最小化绝对值之和和最小化平方和之间的具体比较无关,因为前者不是线性估计量。请参阅此表,对比它们的属性,显示最小二乘法的优势在于响应数据的微小变化时具有稳定性,并且始终具有单一解决方案。