机器算法验证 - 在最小二乘的情况下偏向自然数 - 吾爱随笔录

在最小二乘的情况下偏向自然数

机器算法验证标准差最小二乘

2022-02-05 16:05:48

为什么我们寻求最小化x^2而不是最小化|x|^1.95or |x|^2.05。有没有理由为什么这个数字应该正好是两个，或者它只是一个具有简化数学优势的约定？

4个回答

没有理由你不能尝试最小化 x^2 以外的范数，例如，有整本关于分位数回归的书都在或多或少地最小化 |x| 如果你正在使用中位数。它通常更难做到，并且根据误差模型，可能无法给出好的估计量（取决于在上下文中这是否意味着低方差或无偏或低 MSE 估计量）。

至于为什么我们更喜欢整数矩而不是实数值矩，主要原因可能是实数的整数幂总是产生实数，负实数的非整数幂产生复数，因此需要使用一个绝对值。换句话说，虽然实值随机变量的 3 阶矩是实数，但 3.2 阶矩不一定是实数，因此会导致解释问题。

除此之外...

随机变量整数矩的解析表达式通常比实值矩更容易找到，无论是通过生成函数还是其他方法。因此，将它们最小化的方法更容易编写。
整数矩的使用导致表达式比实值矩更容易处理。
我想不出一个令人信服的理由，即（例如）X 的绝对值的 1.95 次矩会提供比（例如）X 的第二次矩更好的拟合属性，尽管这可能很有趣。
特定于 L2 范数（或平方误差），它可以通过点积来编写，这可以大大提高计算速度。它也是唯一一个是希尔伯特空间的 Lp 空间，这是一个很好的特性。

在普通最小二乘法中，(A'A)^(-1) x = A'b 的解使平方误差损失最小化，并且是最大似然解。

所以，很大程度上是因为在这个历史案例中数学很容易。

但是通常人们会最小化许多不同的损失函数，例如指数、逻辑、柯西、拉普拉斯、胡伯等。这些更奇特的损失函数通常需要大量的计算资源，并且没有封闭形式的解决方案（通常），所以他们现在才开始变得更受欢迎。

我们试图最小化描述符中留下的方差。为什么是方差？阅读这个问题；这也与错误是正态分布的（几乎是无声的）假设结合在一起。

扩展：
两个附加参数：

对于方差，我们有一个很好的“定律”，即对于不相关的样本，方差之和等于和的方差。如果我们假设误差与案例不相关，则最小化平方残差将直接用于最大化解释方差，这可能是一个不太好的但仍然流行的质量度量。
如果我们假设误差的正态性，则最小二乘误差估计器是最大似然估计器。

这个问题已经很老了，但我实际上有一个没有出现在这里的答案，并且给出了一个令人信服的理由，为什么（在一些合理的假设下）平方误差是正确的，而任何其他幂都是不正确的。

假设我们有一些数据 $D = \langle(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2),...,(\mathbf{x}_n,y_n)\rangle$ 并想找到线性（或其他）函数 $f$ 最好地预测数据，在某种意义上，概率密度 $p_f(D)$ 观察这个数据应该是最大的关于 $f$ （这称为最大似然估计）。如果我们假设数据由下式给出 $f$ 加上带有标准偏差的正态分布误差项 $\sigma$ ，然后

p_{f} (D) = \prod_{i = 1}^{n} \frac{1}{σ \sqrt{2 π}} e^{- \frac{(y_{i} - f (x_{i}))^{2}}{2 σ^{2}}} .

$p_f(D) = \prod_{i=1}^{n} \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(y_i - f(\mathbf{x}_i))^2}{2\sigma^2}}.$ 这相当于

\frac{1}{σ^{n} (2 π)^{n / 2}} e^{- \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} (y_{i} - f (x_{i}))^{2}} .

$\frac{1}{\sigma^n(2\pi)^{n/2}}e^{-\frac{1}{2\sigma^2}\sum_{i=1}^{n} (y_i - f(\mathbf{x}_i))^2}.$ 所以最大化

p_{f} (D)

$p_f(D)$ 是通过最小化来实现的

\sum_{i = 1}^{n} (y_{i} - f (x_{i}))^{2}

$\sum_{i=1}^{n} (y_i - f(\mathbf{x}_i))^2$ ，即平方误差项的总和。

其它你可能感兴趣的问题

上一篇python中的增强决策树？下一篇在直方图中绘制平均值是否合适？