人工智能 - LMS总是凸函数吗？如果是，那我们为什么要为神经网络改变它？ - 吾爱随笔录

人工智能神经网络深度学习梯度下降线性回归

2021-10-22 08:12:26

在 LMS（最小均方）中，我们使用二次误差函数，二次函数通常是抛物线（一些凸形）。我想知道这是否是我们使用最小二乘误差度量的原因？如果不是这种情况（它不是总是凸的或我们使用 LMS 的原因），那是什么原因呢？为什么这个指标会改变深度学习/神经网络，但适用于回归问题？

[编辑]：这总是一个凸函数还是有可能不是凸函数？

1个回答

平方损失适用于回归，因为最小化它与最大化模型参数的可能性相同（假设误差是高斯的）。但是，如果模型直接产生概率，那么在损失内直接使用这些概率是很自然的。因此，在所有分类模型中，我们更倾向于最小化正确类别的负对数似然。

请注意，选择自然损失会带来几个实际优势。特别是，当 sigmoid 在错误的方向上饱和时，在 sigmoid 激活后应用二次损失会导致非常差的梯度。负对数似然损失没有这样的问题。

这个问题并不特定于神经网络。自 1958 年以来，逻辑回归一直使用负对数似然损失。

其它你可能感兴趣的问题