所以,最近有一篇Layer Normalization论文。在 Keras上也有一个实现。
但我记得有论文题为Recurrent Batch Normalization (Cooijmans, 2016) 和Batch Normalized Recurrent Neural Networks (Laurent, 2015)。这三个有什么区别?
有这个相关工作部分我不明白:
批量归一化先前已扩展到循环神经网络 [Laurent 等人,2015,Amodei 等人,2015,Cooijmans 等人,2016]。之前的工作 [Cooijmans et al., 2016] 表明,通过为每个时间步保持独立的归一化统计信息,可以获得循环批量归一化的最佳性能。作者表明,将循环批归一化层中的增益参数初始化为 0.1 会对模型的最终性能产生显着影响。我们的工作也与体重标准化有关 [Salimans and Kingma, 2016]。在权重归一化中,代替方差,输入权重的 L2 范数用于归一化神经元的总和输入. 使用预期统计量应用权重归一化或批量归一化等效于对原始前馈神经网络进行不同的参数化。在 Pathnormalized SGD [Neyshabur et al., 2015] 中研究了 ReLU 网络中的重新参数化。然而,我们提出的层归一化方法不是对原始神经网络的重新参数化。因此,层归一化模型与其他方法具有不同的不变性,我们将在下一节中研究