为什么人们经常使用经典的最小二乘法?如果我使用绝对值而不是幂,我立即知道解的距离有多远:
平方有什么好处?
为什么人们经常使用经典的最小二乘法?如果我使用绝对值而不是幂,我立即知道解的距离有多远:
平方有什么好处?
为什么人们如此频繁地使用经典的最小二乘法?
首先,平方使问题二次可微,因此应用了许多不同的解决方法(准牛顿方法、Levenberg-Marquardt、Gauss-Newton),并且对于平方的内容仍有一定的灵活性(例如,我可以替换和适用于广泛的功能)。
从这些方法中,也有一些很好的线性代数好处:我们可以使用 Cholesky/稀疏 Cholesky。
如果我使用绝对值而不是幂,我马上就知道解的距离有多远……
如果 LP 重新表述是可能的,绝对值方法(更一般地,L1 最小化方法)有时是易于处理的,但如果 LP 表述是不可能的(例如,采用差异的 L1 范数),它也可以真正减慢速度非线性函数)。
尽管 Geoff Oxberry 的回答解决了为什么最小化残差平方和比绝对值总和更容易的计算原因,但它没有讨论更喜欢最小二乘解决方案的统计原因。
对于测量误差独立且正态分布的问题,(适当加权的)最小二乘解提供参数的最大似然估计。即使测量误差不是独立的,也可以扩展普通最小二乘法来校正残差的相关性。在线性情况下,最小二乘解还具有许多其他重要的统计特性。
另一方面,从统计的角度来看,有时参数估计使残差的绝对值之和最小化更好。特别是,如果存在非正态分布的罕见但非常糟糕的“异常值”测量值,则最小化残差绝对值的总和通常会比最小二乘法提供更好的估计。在“稳健回归”中,经常使用残差和其他相关目标函数的绝对值之和。
如果您的问题是“人们有时会使用- 没有充分理由来测量距离的规范?”那么答案可能是肯定的。选择正确的规范来测量高维对象之间的差异通常并不容易决定。
使用的动机之一-norm 测量向量之间的距离是它在欧几里得/刚性变换下是不变的。如果您有理由希望您的算法在这些转换下也保持不变,那么这是一个自然的选择。
也有理由使用-范数(通常作为-"norm" 计算非零条目,如果你关心稀疏性)。有关更多信息,请参阅 Geoff Oxbury 的回答。
对于一维数据,最小化距离平方和的点是算术平均值,最小化绝对距离和的点是中位数。类似中位数的解决方案有时可能比类似均值的解决方案更受欢迎,但非唯一性和“奇怪”的依赖关系最终使它在理论上不太容易处理。