为什么在 OLS 估计中使用平方残差而不是绝对残差?

机器算法验证 回归 估计 最小二乘 残差
2022-02-03 17:01:45

为什么我们在 OLS 估计中使用平方残差而不是绝对残差?

我的想法是我们使用误差值的平方,因此拟合线下方的残差(然后是负数)仍然必须能够加到正误差上。否则,我们可能会得到一个 0 的错误,因为一个巨大的正错误可能会被一个巨大的负错误抵消。

那么为什么我们要平方它,而不是只取绝对值呢?是不是因为对更高的错误有额外的惩罚(而不是 2 是 1 的错误的 2 倍,当我们平方它时它是 1 的错误的 4 倍)。

4个回答

我不禁引用 Huber, Robust Statistics , p.10 对此的评论(抱歉,引用太长,无法放入评论):

散布的两个历史悠久的测量方法是平均绝对偏差

dn=1n|xix¯|

和均方差

sn=[1n(xix¯)2]1/2

Eddington (1914, p.147) 和 Fisher (1920, p. 762 的脚注) 之间关于dnsn.[...] 费舍尔似乎解决了这个问题,指出对于正常观察sn比效率高约 12%dn.

通过条件均值之间的关系y^和无条件均值x¯类似的论点适用于残差。

两者都完成了。

最小二乘更容易,而且对于独立随机变量“方差添加”这一事实意味着它更方便;例如,划分方差的能力对于比较嵌套模型特别方便。它在正常情况下效率更高(最小二乘是最大似然),这似乎是一个很好的理由 - 但是,一些具有高细分的稳健估计器在正常情况下可能具有令人惊讶的高效率。

但是 L1 规范肯定用于回归问题,而且这些天相对经常使用。

如果您使用 R,您可能会发现第 5 节中的讨论很有用:

https://socialsciences.mcmaster.ca/jfox/Books/Companion/appendices/Appendix-Robust-Regression.pdf

(尽管它之前的关于 M 估计的东西也是相关的,因为它也是一个特例)

尚未提及的一件事是独特性。如果解释变量的矩阵是满秩的,那么最小二乘法总是会产生一个“最佳”答案。当最小化残差的绝对值之和时,可能有无限数量的线都具有相同的绝对残差之和(最小值)。应该使用哪一行?

当问题以随机方式表示时:Y=aX+b+ϵ, 在哪里ϵ是正态分布的,最大似然估计是 OLS 估计 - 而不是最小绝对偏差 (MAD) 估计。所以这很好。

此外,OLS 估计和线性代数之间有很强的联系。Y^是一个线性函数Y--- 实际上,它是对由自变量定义的子空间的投影。

OLS 会发生很多好事——MAD,但不是很多。正如@user603 指出的那样,OLS 效率更高(正常模型适用的地方)。当然,它不那么健壮。