是什么让均方误差如此之好?

机器算法验证 最大似然 线性模型 毫秒
2022-03-08 21:46:27

我们的统计推理课程材料如下:

均方误差的原理可以从最大似然原理推导出来(在我们设置了误差呈正态分布的线性模型之后)

在那之后,材料显然在几页数学方程中显示了这种推导,几乎没有解释。

据我了解,“原则”是指MSE 是一个特别好的损失函数的原因在另一页上,他们甚至明确指出实际上它是最重要的损失函数(我想在某些情况下)。

是否可以不用繁重的数学来解释为什么 MSE 是一个特别好的损失函数?例如,哪个属性使它比平均绝对误差 (MAE) 更重要?直觉上,我猜 MAE 在大多数实际应用中会优于 MSE。

4个回答

为了提供一些可供思考的替代品,这里有一个非常简单的现实世界示例,其中 MSE不是合适的成本函数,因为它的对称性(取自Granger 和 Newbold 的“预测经济时间序列”旧书第 2 版. 1986)(引用第 125 页):

“一家银行打算购买一台电脑来处理其经常账户。为了确定要购买的电脑的规模,对未来的业务进行预测。如果预测过高,结果将是电脑利用率不足,可以买更便宜的机器。如果预测太低,结果将是部分帐户将不得不通过其他方式处理。没有理由假设在这种情况下错误的成本是对称的。 "

当我们“只是”想估计一些参数时,我们没有理由说,例如,“向右”偏离比“向左”偏离更糟糕,因此对称成本函数是可以的。

但是当我们想使用这些统计估计进行决策时,现实世界的成本就会出现,而且它们很可能是不对称的。

请参阅这篇文章以获取具有一般非必要对称偏差成本的已计算示例。

显然,上述情况是与所有对称成本函数相关的反例,而不仅仅是 MSE。

Squared Loss 是可微的,这是一个非常好的属性。在许多情况下,与其他损失函数相比,平方损失有更接近的解决方案。具体来说,解决最小二乘问题

minimize  Axb2

我们可以将导数设置为0

2AT(Axb)=0

并求解线性系统

ATAx=ATb

此外,还有很多很好的算法可以解决最小二乘问题(例如,可以使用 QR 分解来解决,它使用矩阵运算,与一些迭代算法相比具有一些优势),这不适用于其他损失函数。ATAx=ATb

我相信也有一些历史原因,最小二乘已经研究了数百年,并且在大多数教科书中。人们使用它时不会再考虑其他损失函数。

您基本上在该引文中回答了您的问题:“[它]源自最大似然原理(在我们设置了误差呈正态分布的线性模型之后)”。

假设您的错误是正态分布的是否合理?如果是这样,那么平方损失是最合理的损失函数,因为它根据对数似然惩罚解决方案。根据对数似然惩罚是损失的唯一附加度量(直到仿射图),因此一个数据集上的损失加上另一个数据集上的损失就是组合数据集上的损失,也根据对数似然进行惩罚.

我也对另一个问题给出了类似的答案(为什么平方差而不是取标准差的绝对值?)。

Christian P. Robert 在《贝叶斯选择》一书中很好地描述了这一点(第 77-78 页):

由 Legendre (1805) 和 Gauss (1810) 提出,这种损失无疑是最常见的评价标准。它的有效性建立在统计设置中误差概念的模糊性(即测量误差与随机变化)上,它也引起了许多批评,通常处理平方误差损失的事实

(2.5.1)L(θ,d)=(θd)2

过于严厉地惩罚大的偏差。然而,像 (2.5.1) 这样的凸损失函数具有无可比拟的优势,即避免了风险爱好者的悖论并排除了随机估计量。二次损失的另一个常见理由是它为更复杂的对称损失提供了泰勒展开近似(参见练习 4.14 中的反例)。在他 1810 年的论文中,高斯已经承认二次损失的任意性,并以简单为由为其辩护。(...) 事实上,与二次损失相关的贝叶斯估计量是后验均值。(...)

因此,它避免了风险爱好者悖论,因为风险爱好者“更喜欢随机收益而不是预期收益”(第 59 页),并且平方损失以均值结算。它与误差和正态分布的概念有关,并且对优化很友好。尽管如此,它在某种程度上是任意的,当然它并不总是可取的,或者最终是最好的。