为什么我们寻求最小化x^2
而不是最小化|x|^1.95
or |x|^2.05
。有没有理由为什么这个数字应该正好是两个,或者它只是一个具有简化数学优势的约定?
在最小二乘的情况下偏向自然数
没有理由你不能尝试最小化 x^2 以外的范数,例如,有整本关于分位数回归的书都在或多或少地最小化 |x| 如果你正在使用中位数。它通常更难做到,并且根据误差模型,可能无法给出好的估计量(取决于在上下文中这是否意味着低方差或无偏或低 MSE 估计量)。
至于为什么我们更喜欢整数矩而不是实数值矩,主要原因可能是实数的整数幂总是产生实数,负实数的非整数幂产生复数,因此需要使用一个绝对值。换句话说,虽然实值随机变量的 3 阶矩是实数,但 3.2 阶矩不一定是实数,因此会导致解释问题。
除此之外...
- 随机变量整数矩的解析表达式通常比实值矩更容易找到,无论是通过生成函数还是其他方法。因此,将它们最小化的方法更容易编写。
- 整数矩的使用导致表达式比实值矩更容易处理。
- 我想不出一个令人信服的理由,即(例如)X 的绝对值的 1.95 次矩会提供比(例如)X 的第二次矩更好的拟合属性,尽管这可能很有趣。
- 特定于 L2 范数(或平方误差),它可以通过点积来编写,这可以大大提高计算速度。它也是唯一一个是希尔伯特空间的 Lp 空间,这是一个很好的特性。
在普通最小二乘法中,(A'A)^(-1) x = A'b 的解使平方误差损失最小化,并且是最大似然解。
所以,很大程度上是因为在这个历史案例中数学很容易。
但是通常人们会最小化许多不同的损失函数,例如指数、逻辑、柯西、拉普拉斯、胡伯等。这些更奇特的损失函数通常需要大量的计算资源,并且没有封闭形式的解决方案(通常),所以他们现在才开始变得更受欢迎。
我们试图最小化描述符中留下的方差。为什么是方差?阅读这个问题;这也与错误是正态分布的(几乎是无声的)假设结合在一起。
扩展:
两个附加参数:
对于方差,我们有一个很好的“定律”,即对于不相关的样本,方差之和等于和的方差。如果我们假设误差与案例不相关,则最小化平方残差将直接用于最大化解释方差,这可能是一个不太好的但仍然流行的质量度量。
如果我们假设误差的正态性,则最小二乘误差估计器是最大似然估计器。
这个问题已经很老了,但我实际上有一个没有出现在这里的答案,并且给出了一个令人信服的理由,为什么(在一些合理的假设下)平方误差是正确的,而任何其他幂都是不正确的。
假设我们有一些数据并想找到线性(或其他)函数最好地预测数据,在某种意义上,概率密度观察这个数据应该是最大的关于(这称为最大似然估计)。如果我们假设数据由下式给出加上带有标准偏差的正态分布误差项, 然后