在Neural Networks and Deep Learning 一书的第 3 章中,文中反复指出,神经元饱和度只取决于输出层的激活函数和成本函数,例如:
“我们什么时候应该使用交叉熵而不是二次成本?事实上,只要输出神经元是 sigmoid 神经元,交叉熵几乎总是更好的选择。”
和,
“这表明,如果输出神经元是线性神经元,那么二次成本不会导致学习放缓的任何问题。在这种情况下,二次成本实际上是一个合适的成本函数。”
但是,我不清楚为什么饱和只是输出层的问题。如果先前的隐藏层具有 sigmoid 激活和二次成本函数,那么这些先前层的梯度是否也存在饱和度问题?