在我阅读有关统计的书时,我遇到了线性回归的主题。在这一章中,作者首先解释说你想最小化残差,以使你的 y = a + bx 尽可能好:我明白这一点,但是在本章的中间,残差突然变成了 sum残差的平方。为什么这样做?我一直在谷歌搜索,但找不到正确的答案。谁愿意帮助我理解为什么使用残差的平方和而不仅仅是残差的总和?
亲切的问候,巴斯
在我阅读有关统计的书时,我遇到了线性回归的主题。在这一章中,作者首先解释说你想最小化残差,以使你的 y = a + bx 尽可能好:我明白这一点,但是在本章的中间,残差突然变成了 sum残差的平方。为什么这样做?我一直在谷歌搜索,但找不到正确的答案。谁愿意帮助我理解为什么使用残差的平方和而不仅仅是残差的总和?
亲切的问候,巴斯
残差之和将始终为 0,因此这不起作用。
一个更有趣的问题是,为什么使用残差平方和与残差绝对值之和。这对大残差的惩罚比对小残差的惩罚更大。我相信这样做的原因是因为数学计算起来更容易,而且在计算机出现之前,使用平方残差估计回归要容易得多。如今,这个理由不再适用,平均绝对偏差回归确实是可能的。它是稳健回归的一种形式。
很好的答案,但也许我可以给出更直观的答案。假设您正在拟合一个线性模型,此处由一条由斜率和截距参数化的直线表示。
每个残差都是每个数据点和线之间的弹簧,它试图将线拉到自己身上。
明智的做法是找到最小化系统能量的斜率和截距。每个弹簧中的能量(即剩余能量)与其长度的平方成正比。所以系统所做的是最小化残差平方和,即最小化弹簧中的能量总和。