前 5 个答案无法区分估计损失1和预测损失2,这对于回答问题至关重要。先验地,两者没有理由重合。我将在使用线性回归的点预测的背景下讨论这两种类型的损失。讨论可以扩展到线性回归以外的模型和点预测以外的任务,但本质保持不变。
设置
假设您面临一个预测问题,其中模型是
,其中,是位置且尺度的概率分布。您的目标是在给定,您的点预测将是,的函数,数据样本,模型和根据预测误差定义的惩罚(奖励的负数)函数。您面临的惩罚函数是。它的最小值为零(值y=Xβ+ε
ε∼D(0,σ)D0σy0x0y^0x0LP(y−y^)LP(0)可以在不失一般性的情况下设置为零)并且在零的两侧不减;这是合理预测损失函数的典型特征。您可以自由选择估计损失函数和点预测函数。你对每个人的最佳选择是什么?这将取决于误差分布和预测损失函数。LE(⋅)yhat0DLP(⋅)
估计损失
估计损失指定如何从样本数据中获得模型的参数估计。在我们的线性回归示例中,它涉及和的估计。和相应拟合值之间的残差平方和 (OLS) 、绝对残差总和(中位数处的分位数回归)或其他函数来估计它们。估计损失的选择可以通过模型误差的分布来确定。在某种技术意义上*最准确的估计器将通过使参数估计器成为最大似然 (ML) 估计器的估计损失来实现。如果模型误差呈正态分布(βσyD是正常的),这将是OLS;如果它们按照拉普拉斯分布(是拉普拉斯)分布,这将是均值的分位数回归;
*为简化起见,给定 ML 估计器,您可能期望模型中的参数估计值比替代估计器提供的更准确。D
预测损失
预测损失指定如何惩罚预测错误。你不选择它,它是给定的。(通常是客户指定它。如果客户不能在数学上做到这一点,分析师应该努力通过仔细倾听客户的论点来做到这一点。)如果预测错误导致客户的损失(例如经济损失) 以关于零的二次和对称增长,您将面临平方预测损失。如果客户的损失在零附近线性且对称地增长,那么您将面临绝对预测损失。对于您可能面临的预测损失类型,还有很多其他可能性。
预言
给定模型的参数估计和兴趣点的回归量值,您应该根据预测损失对于平方损失,您将选择的估计均值,因为真实均值使平均平方损失最小化(其中平均值取自的随机样本,服从)。对于绝对损失,您将选择估计的中位数。对于其他损失函数,您将选择您已建模x0y^0y0y0x=x0y0
回到你的问题
为什么人们经常选择平方误差而不是绝对误差,或者相应地平方损失而不是绝对损失作为估计损失?因为正常错误(是正常的)在应用程序中很常见,D可以说比拉普拉斯错误更多(是拉普拉斯)。它们还使回归估计量在分析上易于处理。然而,它们并不容易计算。OLS 的计算复杂度(对应于正常误差下的 ML 估计)与中位数的分位数回归(对应于拉普拉斯误差下的 ML 估计)并没有太大的不同。因此,有一些合理的论据支持选择 OLS 而不是中位数的分位数回归,或平方误差而不是绝对误差。D
为什么人们选择平方误差,或者相应的平方损失,作为预测损失? 也许是为了简单。正如之前的一些答案可能已经提到的那样,您必须为教科书的展示选择一些基线;您无法详细讨论所有可能的情况。但是,将平方损失而不是绝对损失作为预测损失的情况不如估计损失的情况令人信服。实际预测损失可能是不对称的(如之前的一些答案中所讨论的),并且不太可能随着预测误差呈二次增长而不是线性增长。当然,在实践中,您应该遵循客户的预测损失规范。同时,在没有具体客户的随意示例和讨论中,我没有看到一个强烈的论据来支持平方误差而不是绝对误差。
1也称为估计成本、拟合损失、拟合成本、训练损失、训练成本。
2也称为预测成本、评估损失、评估成本。