批量归一化在某种意义上说,在给定的层中,您将神经元的值标准化,然后将每个值与一些可训练的缩放常数相乘,并将它们与另一个可训练的移位常数相乘。
但是是否也建议在输出层这样做?如果使用softmax函数,那么我看不出这样做的意义,如果不使用softmax,那还推荐吗?
批量归一化在某种意义上说,在给定的层中,您将神经元的值标准化,然后将每个值与一些可训练的缩放常数相乘,并将它们与另一个可训练的移位常数相乘。
但是是否也建议在输出层这样做?如果使用softmax函数,那么我看不出这样做的意义,如果不使用softmax,那还推荐吗?
在最后一层应用批处理规范可能是个坏主意。我还没有看到任何关于原因的严格解释,但这可能是因为它在最终输出中引入了太多的方差/随机性/正则化,从而损害了训练。