在使用类似 ReLU/ReLU 的激活的现代 DNN/CNN 架构中使用 MSE 损失 - (ab)^2 而不是 L1 损失 - abs(ab) 有什么意义吗?如果是这样,为什么?
在现代深度神经网络中使用 MSE 损失有什么意义?
机器算法验证
神经网络
卷积神经网络
损失函数
毫秒
2022-04-09 07:58:07
1个回答
假设您想要一个无偏的预测,并且依赖数据的条件分布是不对称的。然后你想最小化平方误差,或损失。
最小化绝对误差或损失,相当于找到条件分布的中位数(Hanley et al., 2001, The American Statistician),而不是均值。如果分布是不对称的,这通常意味着输出是有偏差的。
这是纯粹的统计效应。它完全独立于您的 ML 算法、NN 架构、拟合方法等。
其它你可能感兴趣的问题