当绝对误差与大多数问题更相关时,为什么使用平方误差作为标准?

机器算法验证 回归 最小二乘 最小绝对偏差
2022-02-07 20:48:23

我承认该主题的部分内容已在此论坛上讨论过。一些例子:

我仍然不明白的是为什么OLS回归仍然是线性回归问题的默认解决方案。在我看来,在大多数实际情况下,与错误相关的成本是线性的或近似线性的。如果我订购 2 个额外零件,与订购 1 个额外零件相比,我会产生两倍的不必要成本。因此,OLS 产生的最优解与现实中的最优解并不对应。我知道,一般来说,您可以最小化在这种情况下最有意义的任何错误度量。我的问题不在于在特定情况下使用 MAE 是否可能或一个好主意。它是关于公约的。当实际成本通常是线性的时,为什么在几乎所有简单情况下都最小化 MSE 而不是 MAE?

我见过的最小化 MSE 的案例包括:

  1. MSE 是连续可微分的
  2. 平方对大错误的惩罚更大
  3. 这是有道理的,因为我们假设错误是正态分布的

但是,如果我们可以轻松地使用绝对误差执行回归,并且我们主要关注预测,那么我看不出这些点如何导致任何人选择平方误差。如果我们选择约定,绝对错误不是更好吗?

这篇文章收到了许多对我有用的优秀答案。在这些答案中,以及模组认为回答我问题的其他地方的答案中,除了@richard-hardy 的答案之外,没有一个能完全解决我困惑的真正根源。

4个回答

TLDR;当模型用户对错误的实际成本一无所知时,与 MAE 相比,MSE 是一个更好的默认选项,因为在我看来,它更易于分析操作并且更可能匹配实际的错误成本。

这是一个很好的问题。我喜欢你一开始就想让你的损失函数与实际成本相匹配。在我看来,这就是理想的方式。但是,每次构建模型时从实际成本中推导出成本函数是不切实际的,因此我们倾向于使用软件中可用的损失函数之一。最小二乘是最流行的函数之一,主要是由于数学上的方便。分析处理它更容易。此外,在某些情况下,最小二乘法会产生无偏点预测,即,出于情感原因,这通常被认为是可取的。E[y]y^=0

话虽如此,我必须争辩说,绝对价值损失对我来说并不明显更现实。考虑一下,药物过量——在某些情况下,它们比药物不足的代价要高得多:不够高与死亡。在您的零件示例中,请考虑以下情况:如果您将零件成本低估为 1美元,并签订了一份远期协议,以 1.1美元的价格在一个月后交付 100 万个零件,因为您知道从今天起一个月将有 100 万美元。您将获得 10% 的利润!

然后到了这一天,零件实际上是每件 1.2 美元。因此,您不仅会蒙受10 万美元的损失,而且还会缺乏交付 100 万个零件的资金。因此,您被迫违约并破产,这是非常昂贵的。另一方面,如果您高估了零件的成本,那么您将放弃一些利润,但不会最终陷入破产或流动性危机的可怕境地。

这是业务中非常常见的情况,其中损失不对称且高度非线性,成本在预测误差的一个方向而不是另一个方向上迅速上升。因此,我认为绝对损失是对称的并且在预测误差上具有线性损失,在大多数业务情况下是不现实的。此外,虽然是对称的,但平方损失至少是非线性的。

然而,绝对损失函数和平方损失函数之间的区别并不止于此。例如,可以证明绝对损失的最佳点预测是中位数,而平方损失的预测是均值。

我认为以下损失函数更适合业务预测,在许多情况下,过度预测误差很快就会变得非常昂贵: 在这里,如果您要预测一个非负数,那么过度预测可能是毁灭性的。想象一下,您正在银行预测存款量,而实际存款量却远低于您的预期。这可能会产生严重的后果。这种类型的非对称损失函数会导致有偏差的最优点预测,即e=yy^

L(e,y^)=|ln(1+ey^)|
yE[y]y^0,但这正是您想要的:您希望在此类业务问题中因预测不足而犯错。

前 5 个答案无法区分估计损失1预测损失2,这对于回答问题至关重要。先验地,两者没有理由重合。我将在使用线性回归的点预测的背景下讨论这两种类型的损失。讨论可以扩展到线性回归以外的模型和点预测以外的任务,但本质保持不变。

设置

假设您面临一个预测问题,其中模型是 ,其中是位置且尺度的概率分布。您的目标是在给定,您的点预测将是的函数,数据样本,模型和根据预测误差定义的惩罚(奖励的负数)函数。您面临的惩罚函数是它的最小值为零(值

y=Xβ+ε
εD(0,σ)D0σy0x0y^0x0LP(yy^)LP(0)可以在不失一般性的情况下设置为零)并且在零的两侧不减;这是合理预测损失函数的典型特征。您可以自由选择估计损失函数和点预测函数你对每个人的最佳选择是什么?这将取决于误差分布和预测损失函数LE()yhat0DLP()

估计损失

估计损失指定如何从样本数据中获得模型的参数估计。在我们的线性回归示例中,它涉及的估计。和相应拟合值之间的残差平方和 (OLS) 、绝对残差总和(中位数处的分位数回归)或其他函数来估计它们。估计损失的选择可以通过模型误差的分布来确定。在某种技术意义上*最准确的估计器将通过使参数估计器成为最大似然 (ML) 估计器的估计损失来实现。如果模型误差呈正态分布(βσyD是正常的),这将是OLS;如果它们按照拉普拉斯分布(是拉普拉斯)分布,这将是均值的分位数回归; *为简化起见,给定 ML 估计器,您可能期望模型中的参数估计值比替代估计器提供的更准确D

预测损失

预测损失指定如何惩罚预测错误。你不选择它,它是给定的。(通常是客户指定它。如果客户不能在数学上做到这一点,分析师应该努力通过仔细倾听客户的论点来做到这一点。)如果预测错误导致客户的损失(例如经济损失) 以关于零的二次和对称增长,您将面临平方预测损失。如果客户的损失在零附近线性且对称地增长,那么您将面临绝对预测损失。对于您可能面临的预测损失类型,还有很多其他可能性。

预言

给定模型的参数估计和兴趣点的回归量值,您应该根据预测损失对于平方损失,您将选择的估计均值,因为真实均值使平均平方损失最小化(其中平均值取自的随机样本,服从)。对于绝对损失,您将选择估计的中位数。对于其他损失函数,您将选择您已建模x0y^0y0y0x=x0y0

回到你的问题

为什么人们经常选择平方误差而不是绝对误差,或者相应地平方损失而不是绝对损失作为估计损失因为正常错误(是正常的)在应用程序中很常见,D可以说比拉普拉斯错误更多(是拉普拉斯)。它们还使回归估计量在分析上易于处理。然而,它们并不容易计算。OLS 的计算复杂度(对应于正常误差下的 ML 估计)与中位数的分位数回归(对应于拉普拉斯误差下的 ML 估计)并没有太大的不同。因此,有一些合理的论据支持选择 OLS 而不是中位数的分位数回归,或平方误差而不是绝对误差。D

为什么人们选择平方误差,或者相应的平方损失,作为预测损失? 也许是为了简单。正如之前的一些答案可能已经提到的那样,您必须为教科书的展示选择一些基线;您无法详细讨论所有可能的情况。但是,将平方损失而不是绝对损失作为预测损失的情况不如估计损失的情况令人信服。实际预测损失可能是不对称的(如之前的一些答案中所讨论的),并且不太可能随着预测误差呈二次增长而不是线性增长。当然,在实践中,您应该遵循客户的预测损失规范。同时,在没有具体客户的随意示例和讨论中,我没有看到一个强烈的论据来支持平方误差而不是绝对误差。

1也称为估计成本、拟合损失、拟合成本、训练损失、训练成本。
2也称为预测成本、评估损失、评估成本。

我认为原因更多的是社会学而不是统计。

简短版本:我们这样做是因为我们一直这样做。

更长的版本:从历史上看,我们无法做很多我们现在认为理所当然的事情。许多事情都是计算机密集型的,罗纳德·费舍尔出生在艾伦·图灵之前。

所以,人们做了 OLS 回归——很多。人们在各种实质性领域阅读这些回归,而这些领域的统计课程教授的是方差分析/回归,而不是更现代的方法。

此外,期刊编辑学会了这些方法而不是其他方法,许多人会拒绝使用现代方法的文章,例如“他们不会被理解”。

许多从业者也拒绝现代方法;我曾经是一家医院的数据分析极客。医生会来征求我的建议,如果不是“做 OLS 回归”或“做逻辑回归”,他们会拒绝我的建议。

我获得了心理测量学博士学位,而我在其他心理学分支的许多教授都不知道任何现代方法(有人说:“只报告 p 值,这才是最重要的”)。

我认为值得退后一步,考虑一下这两次损失意味着什么。

从概率的角度来看,损失函数相当于假设的对数似然函数,因此应该对应于我们认为我们的测量值如何分布在它们未知的“真实”值周围。

正如您所说,在 OLS 的情况下,这等效于假设高斯似然,其中绝对误差损失函数等效于拉普拉斯似然。由于中心极限定理,高斯似然通常更适合现实生活。

通过使我们假设的(和隐式生成的)模型尽可能接近现实,我们的预测总体上得到了改进。在许多(大多数?)情况下,这将通过任何合理的度量(包括例如平均绝对误差)提高预测准确性。假设高斯似然可以实现这一点,情况往往要多得多。