人工智能 - 线性回归：为什么将距离*平方*用作误差度量？ - 吾爱随笔录

人工智能线性回归

2021-10-25 23:57:39

通常在执行线性回归预测和梯度下降时，特定线的误差水平的度量将通过平方距离值的总和来衡量。

为什么是距离平方？

在我听到的大多数解释中，他们声称：

但是，一种abs()方法仍然有效。距离平方最小化距离小于 1 的距离结果不是很不方便吗？

我很确定有人一定已经考虑过这一点——那么为什么距离平方是最常用的线性回归方法呢？

4个回答

简要背景

误差度量（问题标题中使用的适当术语）量化了线性或非线性模型的适应度。

它汇总了一组观察结果（训练数据实例）中的单个错误。在典型使用中，误差函数应用于模型预测的因变量向量与经验观察之间的差异。为每个观察计算这些差异，然后求和。¹

为什么是距离平方？

勒让德（Legendre）首先发表了用于衡量模型适应度的平方和法（Paris 1705），他正确地指出，求和之前的平方很方便。他为什么这么写？

可以使用误差的绝对值或其立方的绝对值，但是绝对值导数的不连续性使得函数不平滑。在使用线性代数推导封闭形式（简单代数表达式）时，不平滑的函数会产生不必要的困难。

当想要快速轻松地计算线性回归中的斜率和截距时，封闭形式很方便。²

梯度下降

梯度下降通常用于非线性回归。由于缺乏为许多非线性模型创建封闭形式的能力，迭代成为验证或调整模型的主要方法。

通过考虑一个口渴的盲人仅通过计算步骤在陆地上寻找水，可以获得对梯度下降的直观理解。（在软件中，这些步骤是迭代。）盲人只能用脚感知高度梯度的方向（坡度方向）以下降到局部最小高度。³

任何说“函数本身无关紧要”的人与梯度下降的通常应用有关，这对于盲人远足探险的向导来说都是一个危险的选择。例如，距离的倒数作为误差函数可能会导致徒步旅行者脱水和死亡。

如果人们对解决方案的收敛速度或是否会找到解决方案感兴趣，则错误度量的选择标准很重要。⁴

由于平面（线性表面）的梯度是一个常数，因此对线性模型使用梯度下降是一种浪费。盲人不需要继续对他们脚的角度进行采样。

误差度量的符号

“结果应该是正的，所以仍然计算正偏差和负偏差”的说法是不正确的。⁵

与 1.0 相关的错误度量的有效性

由于最小二乘误差度量相对于任何给定点的误差的偏导数是恒定的，因此最小二乘误差度量在 1.0 上下相似地收敛。

笔记

[1] 模型的自变量和因变量向量的维度在机器学习中通常分别称为特征和标签。

[2] 另一个平滑函数，例如四次方的误差也会导致斜率和截距的闭合形式，尽管如果相关系数不为零，它们会产生略微不同的结果。

[3] 梯度下降算法通常不保证找到全局最小值。在给出的示例中，可能会错过一个存在水的小洞。根据表面特征（地形），感测脚的角度（确定坡度）可能会适得其反。搜索会变得混乱。为了扩展直观的类比，请考虑在 Escher 的相对论石版画中搜索楼梯的底部。

[4] 对于有可能收敛并因此在回归中有用的误差度量，无论误差的方向如何，度量的符号都无关紧要。相对于模型预测和观察之间的相应距离集，误差度量的偏导数集的每一个都应该是正的，以便全向回归。这听起来更复杂，但即使是这个更正的陈述也过于简单化了。

[5] 梯度下降应用中的误差度量通常使用凸函数计算，以避免过冲和可能的振荡和不收敛。在某些情况下，使用平方和以外的误差函数。功能的选择与许多因素有关：

平方形式有时称为欧几里得范数或 L2 范数。它非常有用的特性之一是它具有易于定义的导数，可用于数学分析并相当容易地转换为代码。

直觉上认为，根据误差值夸大差异是有利的，平方就是这样做的。您也可以使用 3 或 4 的幂，但导数更复杂。

根据手头问题的具体情况，可以使用许多不同的规范。

一个理由来自中心极限定理。如果您的数据中的噪声是许多独立效应之和的结果，那么它将趋于正态分布。并且正态分布意味着数据的可能性与距离平方的指数成反比。

换句话说，最小化与均值的距离的平方和相当于找到直线的最可能值，假设误差是正态分布的。这通常是一个合理的假设，但当然并不总是正确的。

它只是从最大似然估计中推导出来的。我们在哪里最大化对数似然函数。有关详细信息，请参阅本讲座：简单线性回归的最大似然方法。

其它你可能感兴趣的问题