为什么批量归一化技术在自然语言应用中不如在计算机视觉中流行?

机器算法验证 神经网络 自然语言 批量标准化
2022-03-18 19:22:58

我在第 61 页的 {1} 部分“5.2.5 饱和和死神经元”中阅读:

批量归一化技术成为有效训练计算机视觉深度网络的关键组成部分。在撰写本文时,它在自然语言应用程序中不太流行。

为什么批量归一化技术在自然语言应用中不如在计算机视觉中流行?


参考:

  • {1} 戈德堡,约夫。“用于自然语言处理的神经网络方法。” 人类语言技术综合讲座 10, no. 1 (2017): 1-309。
2个回答

我认为主要原因是计算机视觉模型往往比 NLP 中常用的模型要深得多。NLP 任务很少有超过 3 或 4 层的情况,通常你可以只使用单层 LSTM。批量标准化有助于训练更深的网络,但对于更浅的网络并不重要。

我也一直在想这个。出于某种原因,应用 batchnorm 在大多数情况下会降低 NLP 基准测试的性能(准确性)。最近有一篇论文试图将其归因于我们正在训练的权重的方差。

我们发现 NLP 数据与 CV 数据的批量统计存在明显差异。特别是,我们观察到 NLP 数据的批量统计在整个训练过程中具有非常大的差异。这种差异也存在于相应的梯度中。相比之下,CV 数据的方差要小几个数量级。请参阅图 2 和图 3,了解 CV 和 NLP 中的 BN 比较。

https://arxiv.org/pdf/2003.07845v1.pdf