在最后一个全连接层之前缺乏批量标准化

机器算法验证 机器学习 神经网络 卷积神经网络 批量标准化
2022-03-11 07:42:23

在我见过的大多数神经网络中,尤其是 CNN,一个共同点是在最后一个全连接层之前缺乏批量归一化。所以通常有一个最终的池化层,它立即连接到一个全连接层,然后连接到一个类别或回归的输出层。我现在找不到它,但是,我记得在最后一个 FC 层没有太大区别之前看到了一个模糊的参考,它结束了批量标准化。如果这是真的,为什么会这样?

在实践中,对于任何给定的输入,最后一个 FC 层似乎有大约 10% 的神经元死亡(尽管我没有测量神经元的连续性)。当你增加 FC 层时,这个比例往往会显着增长,尤其是从以前预训练的模型开始时。

1个回答

我很确定最后一个 FC 层之前的批处理规范不仅没有帮助,而且会严重损害性能。

我的直觉是,网络必须学习一种表示,该表示对于批处理规范中固有的随机性几乎是不变的。同时,当它到达最后一层时,它必须将该表示转换回相当精确的预测。单个 FC 层可能不足以执行该转换。

另一种说法是批处理规范(如 dropout)为网络增加了随机性,并且网络学会了对这种随机性具有鲁棒性。然而,网络根本不可能在输出之前处理随机性。