在我见过的大多数神经网络中,尤其是 CNN,一个共同点是在最后一个全连接层之前缺乏批量归一化。所以通常有一个最终的池化层,它立即连接到一个全连接层,然后连接到一个类别或回归的输出层。我现在找不到它,但是,我记得在最后一个 FC 层没有太大区别之前看到了一个模糊的参考,它结束了批量标准化。如果这是真的,为什么会这样?
在实践中,对于任何给定的输入,最后一个 FC 层似乎有大约 10% 的神经元死亡(尽管我没有测量神经元的连续性)。当你增加 FC 层时,这个比例往往会显着增长,尤其是从以前预训练的模型开始时。