我们的统计推理课程材料如下:
均方误差的原理可以从最大似然原理推导出来(在我们设置了误差呈正态分布的线性模型之后)
在那之后,材料显然在几页数学方程中显示了这种推导,几乎没有解释。
据我了解,“原则”是指MSE 是一个特别好的损失函数的原因。在另一页上,他们甚至明确指出实际上它是最重要的损失函数(我想在某些情况下)。
是否可以不用繁重的数学来解释为什么 MSE 是一个特别好的损失函数?例如,哪个属性使它比平均绝对误差 (MAE) 更重要?直觉上,我猜 MAE 在大多数实际应用中会优于 MSE。