神经网络 - 区分几个归一化值是不可能的?

数据挖掘 rnn
2022-02-22 01:35:09

对神经网络的输入进行归一化是一种常见的做法。

假设我们有一个激活向量。

其中一种技术,层归一化只是查看向量的分量,将这个激活的向量从重新居中到零,然后除以标准偏差μσ

如果激活 [1,2,3,4] 和 [4,5,6,7] 都将重新居中到同一个向量 [-1.5, -0.5, 0.5, 1.5f],那么如何区分激活然后除以标准偏差?此外,当仅对任何神经网络的输入状态向量进行归一化时,我也会看到这样的问题。

编辑:

论文第 4 页的前半部分似乎有一个提示,但是由于我的数学弱点,我无法理解它:(

接受答案后编辑:

伙计们,不要忘记层范数(和批范数)都有增益偏差项。如果网络表现不佳,则调整增益以撤销除法标准偏差,调整偏差用于撤销偏移(重新居中)。这允许一些神经元在真正需要时确实关注缩放和移动。

1个回答

您正在谈论的数学在等式(7)中:

令 x' 是通过将 x 重新缩放 δ 获得的新数据点。然后我们有, 在此处输入图像描述

很容易看出重新缩放单个数据点不会改变模型在层归一化下的预测。类似于层归一化中权重矩阵的重新居中,我们也可以证明批量归一化对于数据集的重新居中是不变的。

它证明了对 x' 的预测与 x 中的预测相同。所以你说的是对的,它们是无法区分的。

我认为这就是我们想要的,因为提高了预测的泛化能力!

例如在图像分类中,您正在尝试检测猩猩,如果图像 I代表猩猩,( I x 5)+2 仍然是猩猩!