线性回归中平方误差和背后的原因

数据挖掘 线性回归
2021-10-12 21:20:42

我刚开始学习线性回归,想知道为什么我们选择最小化平方误差之和。我知道平方有助于我们平衡正面和负面的个体误差(比如 e1 = -2 和 e2 = 4,在平方之前我们会分别将它们视为 2 和 4 的常规距离),但是,我想知道为什么我们不'不处理最小化绝对值而不是平方。如果将其平方,与绝对值相比,e2 具有相对更高的个体最小化贡献(我们想要这样吗?)。我也想知道十进制值。例如,假设我们有 e1 = 0.5 和 e2 = 1.05,当平方时,e1 的权重会更小,因为 0.25 小于 0.5,而 e2 的权重会更大。最后,有 e1 = 0.5 和 e2 = 0.2 的情况。E1距离开始较远,但是当你平方它时,0.25 与 0.4 进行比较。无论如何,只是想知道为什么我们做平方和 Erie 最小化而不是绝对值。

2个回答

简单的谷歌搜索“统计为什么回归不是绝对差异”会给你很好的答案。自己试试吧!

我可以快速总结:

  • 您的回归参数是最大似然优化的解决方案。这涉及导数,但绝对差异在零处没有导数。最小绝对回归没有唯一的解决方案。
  • 最小绝对回归是常规平方和回归的替代方法,通常归类为稳健的统计方法之一。
  • 如果您关心异常值,您最不喜欢绝对回归,否则常规回归通常更好。

您可能想阅读有关 L1 与 L2 的信息:

https://stats.stackexchange.com/questions/45643/why-l1-norm-for-sparse-models

Cross Validated 上已经提出了类似的问题。看:

前者实际上是后者的重复问题。

您也可以从对这篇文章的回答中受益