在 LMS(最小均方)中,我们使用二次误差函数,二次函数通常是抛物线(一些凸形)。我想知道这是否是我们使用最小二乘误差度量的原因?如果不是这种情况(它不是总是凸的或我们使用 LMS 的原因),那是什么原因呢?为什么这个指标会改变深度学习/神经网络,但适用于回归问题?
[编辑]:这总是一个凸函数还是有可能不是凸函数?
在 LMS(最小均方)中,我们使用二次误差函数,二次函数通常是抛物线(一些凸形)。我想知道这是否是我们使用最小二乘误差度量的原因?如果不是这种情况(它不是总是凸的或我们使用 LMS 的原因),那是什么原因呢?为什么这个指标会改变深度学习/神经网络,但适用于回归问题?
[编辑]:这总是一个凸函数还是有可能不是凸函数?
平方损失适用于回归,因为最小化它与最大化模型参数的可能性相同(假设误差是高斯的)。但是,如果模型直接产生概率,那么在损失内直接使用这些概率是很自然的。因此,在所有分类模型中,我们更倾向于最小化正确类别的负对数似然。
请注意,选择自然损失会带来几个实际优势。特别是,当 sigmoid 在错误的方向上饱和时,在 sigmoid 激活后应用二次损失会导致非常差的梯度。负对数似然损失没有这样的问题。
这个问题并不特定于神经网络。自 1958 年以来,逻辑回归一直使用负对数似然损失。