在神经网络的情况下,不同成本函数之间的效率差异是什么?

数据挖掘 机器学习 神经网络 评估
2022-03-03 18:01:38

我正在研究神经网络背后的理论,我想知道使用不同的损失/成本函数之间是否有任何实际区别?

假设我可以使用MAEMSE进行反向传播损失;这个决定对模型效率有什么实际影响吗?

归根结底,这两个函数都只是计算yy^之间的差异(尽管比例不同)。但是对于优化器来说,真正重要的是错误趋势,而不是绝对差异。

当然,这个问题与任何其他模型评估有关。

1个回答

从导航景观的角度来考虑它。您穿越的土地是由您的误差函数(即模型与数据之间的关系)创建的,而您穿越土地的方式是您的训练函数。特别是在神经网络中,陷入“局部最小值”是一个大问题。事实上,神经网络在理论上已经能够逼近任何函数...... 20 年?请参阅通用逼近定理但问题一直是学习如何训练给定的网络。

更具体地说,在您使用 MAE 和 MSE 的情况下,区别在于“正方形”部分。与 MAE 相比,MSE 的误差更大时,“健身景观”的陡峭程度将更加陡峭。1 * 1 = 1。即平方对单位误差没有任何作用。10 * 10 = 100。10 的绝对误差将变为 100 的平方误差。这是查看一个样本,并且在误差很大的局部最小值中具有巨大的影响。

纵观整个数据集,另一个巨大的含义是 NN 如何平衡它看到的错误。使用 MSE,具有高误差的样本变成具有非常高误差的样本。因此,使用 MSE 训练的 NN 将“更关心”学习非常错误的样本,而代价是对“更容易”的样本进行小幅改进。