请原谅我提出这样一个初学者的问题,因为我正在学习 stats 。和机器学习。
我试图理解均方误差。
我理解“平均误差”,即实际值和预测值之间的误差平均值,让我担心的是为什么我们取误差平方?
如果只是为了保持正值,那么我们为什么不只取绝对值。
我只是想了解它给实际损失函数带来了什么价值。
谢谢
请原谅我提出这样一个初学者的问题,因为我正在学习 stats 。和机器学习。
我试图理解均方误差。
我理解“平均误差”,即实际值和预测值之间的误差平均值,让我担心的是为什么我们取误差平方?
如果只是为了保持正值,那么我们为什么不只取绝对值。
我只是想了解它给实际损失函数带来了什么价值。
谢谢
MSE 具有一些理想的特性,例如更容易区分(如@user2974951 评论)以供进一步分析。目标函数的可微性通常对于执行分析计算非常重要。取绝对值称为平均绝对误差(简称 MAE)。它也有应用程序。这不像我们总是更喜欢 MSE 或 MAE。另一个原因,可能是更多地惩罚大错误,因为如果你的错误很大,它的平方会大得多。例如,如果某个错误项是 999,另一个是;如果我们要选择减少的量,MAE 可以选择其中任何一个。但是,MSE 的目标是更大的,因为平方下降更高。
如果是参数的估计量,则 MSE的方差之和和平方偏差:
因此,MSE 由估计量的两个重要特征组成:偏差和方差。一个估计器可能有一个小的偏差,但如果它有一个很大的方差,那就没有意义了。另一方面,估计量可能非常精确,即方差很小,但如果它有很大的偏差,它也没有意义。MSE 将两者都考虑在内。
此外,MSE 的一个属性是,如果取决于,那么如果 MSE( as (因此方差和偏差都收敛到零)是 一致的,即它以概率收敛到。
我认为这里的一些答案并没有完全回答这个问题。如果我们对错误进行更多的惩罚,那么平方不是相当随意吗?如果一个估计器 (MSE1) 的均方误差大于另一个估计器 (MSE2) 的均方误差大于 sqrt(MSE1) > sqrt(MSE2)(证明:https ://math.stackexchange.com/questions/1494484 /using-proof-by-contradiction-to-show-that-xy-implies-sqrt-x-sqrt-y/1494511)。订单被保留,您不会通过取平方根来改变任何东西,实际上也不会进一步惩罚任何东西。
均方误差 (MSE) 是真实值与估计值之间的“距离”。您习惯看到的距离是一维的欧几里得距离(即 sqrt((两点之间的差异)^2) )。但是,我们如何测量其他物体之间的距离呢?例如,我们如何测量两个函数之间的距离?在函数的某些点,一个函数的“y 值”更高,而在其他点,另一个函数的“y 值”更高。为了定义两个函数之间的距离,我们需要一个更抽象的距离定义。我们将此抽象距离称为度量,我们希望它遵循以下属性: 1. 两个对象之间的距离不能为负 2. 从“A 到 B”的距离与从“B 到 A”的距离相同” 3。
回到我们如何测量两个函数之间的距离的示例,如果我们将度量定义为一个函数与另一个函数的距离 x 距离,乘以两个函数的最大 y 值之差的绝对值,那么该度量满足三个属性。因此,如果 g(x) 可以对 x 的所有可能值取 1 到 5 的值,并且 f(x) 可以对 x 的所有值取 2 到 4 的值,那么 g 和 f 之间的距离是 5–4=1。
现在回到你原来的问题,答案是对真实值和估计值之间的差进行平方,以满足距离的这三个属性(所以我们不需要平方根)。方差也是一样的。方差是可能结果与平均值之间距离的加权和。标准差是方差的平方根。我们有时使用标准差作为离散度度量的原因是因为方差以平方为单位。例如,(5 英尺 - 1 英尺)^2 = 16 英尺^2。我们如何将 16 英尺^2 与仅英尺的任何东西进行比较?通过取平方根,我们可以将 4 英尺与其他以英尺测量的东西进行比较。所以总而言之,如果你取平方根并不重要,它仍然只是测量两件事之间的距离。对于方差,我们想将它与具有相同单位的其他事物进行比较,因此我们使用标准偏差。MSE 仅与其他 MSE 进行比较,因此无需取平方根。
注意:我写的一些东西并没有那么严格地显示或陈述,但我只是想让你了解它是如何工作的。