在最小二乘的情况下偏向自然数

机器算法验证 标准差 最小二乘
2022-02-05 16:05:48

为什么我们寻求最小化x^2而不是最小化|x|^1.95or |x|^2.05有没有理由为什么这个数字应该正好是两个,或者它只是一个具有简化数学优势的约定?

4个回答

没有理由你不能尝试最小化 x^2 以外的范数,例如,有整本关于分位数回归的书都在或多或少地最小化 |x| 如果你正在使用中位数。它通常更难做到,并且根据误差模型,可能无法给出好的估计量(取决于在上下文中这是否意味着低方差或无偏或低 MSE 估计量)。

至于为什么我们更喜欢整数矩而不是实数值矩,主要原因可能是实数的整数幂总是产生实数,负实数的非整数幂产生复数,因此需要使用一个绝对值。换句话说,虽然实值随机变量的 3 阶矩是实数,但 3.2 阶矩不一定是实数,因此会导致解释问题。

除此之外...

  1. 随机变量整数矩的解析表达式通常比实值矩更容易找到,无论是通过生成函数还是其他方法。因此,将它们最小化的方法更容易编写。
  2. 整数矩的使用导致表达式比实值矩更容易处理。
  3. 我想不出一个令人信服的理由,即(例如)X 的绝对值的 1.95 次矩会提供比(例如)X 的第二次矩更好的拟合属性,尽管这可能很有趣。
  4. 特定于 L2 范数(或平方误差),它可以通过点积来编写,这可以大大提高计算速度。它也是唯一一个是希尔伯特空间的 Lp 空间,这是一个很好的特性。

在普通最小二乘法中,(A'A)^(-1) x = A'b 的解使平方误差损失最小化,并且是最大似然解。

所以,很大程度上是因为在这个历史案例中数学很容易。

但是通常人们会最小化许多不同的损失函数,例如指数、逻辑、柯西、拉普拉斯、胡伯等。这些更奇特的损失函数通常需要大量的计算资源,并且没有封闭形式的解决方案(通常),所以他们现在才开始变得更受欢迎。

我们试图最小化描述符中留下的方差。为什么是方差?阅读这个问题这也与错误是正态分布的(几乎是无声的)假设结合在一起。

扩展:
两个附加参数:

  1. 对于方差,我们有一个很好的“定律”,即对于不相关的样本,方差之和等于和的方差。如果我们假设误差与案例不相关,则最小化平方残差将直接用于最大化解释方差,这可能是一个不太好的但仍然流行的质量度量。

  2. 如果我们假设误差的正态性,则最小二乘误差估计器是最大似然估计器。

这个问题已经很老了,但我实际上有一个没有出现在这里的答案,并且给出了一个令人信服的理由,为什么(在一些合理的假设下)平方误差是正确的,而任何其他幂都是不正确的。

假设我们有一些数据D=(x1,y1),(x2,y2),...,(xn,yn)并想找到线性(或其他)函数f最好地预测数据,在某种意义上,概率密度pf(D)观察这个数据应该是最大的关于f(这称为最大似然估计)。如果我们假设数据由下式给出f加上带有标准偏差的正态分布误差项σ, 然后

pf(D)=i=1n1σ2πe(yif(xi))22σ2.
这相当于
1σn(2π)n/2e12σ2i=1n(yif(xi))2.
所以最大化pf(D)是通过最小化来实现的i=1n(yif(xi))2,即平方误差项的总和。