我知道我们对输入特征进行规范化,以便使它们具有相同的比例,这样就不会以任意方式学习权重,并且训练会更快。
然后我研究了批量归一化并观察到我们可以通过以下方式对隐藏层的输出进行归一化:
第 1 步:对隐藏层的输出进行归一化,以使均值和单位方差为零,即标准正态(即减去均值并除以该小批量的标准差)。
第 2 步:将此归一化向量重新缩放为具有新分布的新向量意思是和标准差,其中两者和是可训练的。
我不明白第二步的目的。为什么我们不能只做第一步,使向量标准正常,然后继续前进呢?为什么我们需要将每个隐藏神经元的输入重新缩放为学习的任意分布(通过 beta 和 gamma 参数)?