如果我们使用批量标准化作为第一层,我们可以放弃输入的标准缩放吗?

数据挖掘 特征缩放 批量标准化
2022-02-13 10:52:31

在将输入提供给深度学习架构之前,通常的做法是在输入上使用标准缩放器。我想知道如果第一层是批量标准化层是否有必要。

1个回答

缩放与批量标准化所做的有点不同。执行缩放会在所有数据点之间产生缩放差异。例如:值 5 和 55 的比例差异幅度将高于 log(5)=0.698 和 log(55)=1.740。这就是缩放背后的想法。同样,我们使用 255 缩放图像,这有助于更快的收敛

当我们将缩放数据传递到我们的网络时,由于网络每一层都发生了操作,假设在网络的第 5 层观察到的数据分布与在第 1 层的分布不同。这是一个问题,因为我们是在用一种形式的数据训练网络的第一部分,而用另一种形式的数据训练网络的后半部分。所以为了消除这种影响,我们在网络的后面层做 BatchNorm