通常,在二元分类问题中,我们使用sigmoid 作为最后一层的激活函数加上二元交叉熵作为代价函数。
但是,我已经(不止一次)经历过作为最后一层的激活函数 + MSE 作为成本函数对于二元分类问题的效果稍好一些。
以二值图像分割问题为例,我们有两种情况:
- sigmoid(在最后一层)+交叉熵:网络的输出将是每个像素的概率,我们希望根据正确的类别将其最大化。
- (在最后一层)+ MSE:网络的输出将是一个归一化的像素值 [-1, 1],我们想让它尽可能接近原始值(也归一化)。
我们都知道与 sigmoid(梯度消失)相关的问题以及交叉熵成本函数的好处。我们也知道比 sigmoid 稍微好一点(以零为中心,不太容易出现梯度消失),但是当我们使用 MSE 作为成本函数时,我们试图最小化一个完全不同的问题——回归而不是分类。
为什么双曲正切() 结合 MSE 比结合 sigmoid 结合交叉熵更适合二分类问题?它背后的直觉是什么?