在现代深度神经网络中使用 MSE 损失有什么意义?

机器算法验证 神经网络 卷积神经网络 损失函数 毫秒
2022-04-09 07:58:07

在使用类似 ReLU/ReLU 的激活的现代 DNN/CNN 架构中使用 MSE 损失 - (ab)^2 而不是 L1 损失 - abs(ab) 有什么意义吗?如果是这样,为什么?

1个回答

假设您想要一个无偏的预测,并且依赖数据的条件分布是不对称的。然后你想最小化平方误差,或损失。L2

最小化绝对误差或损失,相当于找到条件分布的中位数(Hanley et al., 2001, The American Statistician,而不是均值。如果分布是不对称的,这通常意味着输出是有偏差的。L1

这是纯粹的统计效应。它完全独立于您的 ML 算法、NN 架构、拟合方法等。