为什么带有 MSE 的双曲正切比带有交叉熵的 sigmoid 更好?

人工智能 神经网络 分类 比较 目标函数 回归
2021-10-19 21:02:06

通常,在二元分类问题中,我们使用sigmoid 作为最后一层的激活函数加上二元交叉熵作为代价函数

但是,我已经(不止一次)经历过tanh作为最后一层的激活函数 + MSE 作为成本函数对于二元分类问题的效果稍好一些。

以二值图像分割问题为例,我们有两种情况:

  1. sigmoid(在最后一层)+交叉熵:网络的输出将是每个像素的概率,我们希望根据正确的类别将其最大化。
  2. tanh(在最后一层)+ MSE:网络的输出将是一个归一化的像素值 [-1, 1],我们想让它尽可能接近原始值(也归一化)。

我们都知道与 sigmoid(梯度消失)相关的问题以及交叉熵成本函数的好处。我们也知道tanh比 sigmoid 稍微好一点(以零为中心,不太容易出现梯度消失),但是当我们使用 MSE 作为成本函数时,我们试图最小化一个完全不同的问题——回归而不是分类。

为什么双曲正切(tanh) 结合 MSE 比结合 sigmoid 结合交叉熵更适合二分类问题?它背后的直觉是什么?

1个回答

请参阅 James D. McCaffrey 撰写的博客文章Why You Should Use Cross-Entropy Error instead of Classification Error or Mean Squared Error For Neural Network Classifier Training (2013)。

它应该让您直观地了解为什么平均交叉熵 (ACE) 比 MSE 更合适(但 MSE 也适用)。

简而言之,tanh+ MSE 类似于 sigmoid + MSE,但带有类标签11代替01. 如果你看形状tanh函数,它具有相同的平尾,其中参数的变化不会改变结果。