重新缩放是预处理

即使函数是强凸函数甚至是二次函数，最速下降法也可以采取偏离最优值剧烈振荡的步骤。

考虑。这是凸的，因为它是具有正系数的二次方。通过检查，我们可以看到它在处具有全局最小值。它有梯度 $f(x)=x_1^2 + 25x_2^2$ $x=[0,0]^\top$

\nabla f (x) = [\begin{matrix} 2 x_{1} \\ 50 x_{2} \end{matrix}]

$\nabla f(x)= \begin{bmatrix} 2x_1 \\ 50x_2 \end{bmatrix}$

的学习率，初始猜测我们有梯度更新 $\alpha=0.035$ $x^{(0)}=[0.5, 0.5]^\top,$

x^{(1)} = x^{(0)} - α \nabla f (x^{(0)})

$x^{(1)} =x^{(0)}-\alpha \nabla f\left(x^{(0)}\right)$

它展示了这种向最小值方向疯狂摆动的进展。

由于函数在方向上比在方向上陡峭得多，因此每一步都在剧烈振荡。由于这个事实，我们可以推断出梯度并不总是，甚至通常都指向最小值。当 Hessian的特征值在不同的尺度上时，这是梯度下降的一般性质。在对应特征值最小的特征向量对应的方向上进展缓慢，在特征值最大的方向上进展最快。正是这个属性与学习率的选择相结合，决定了梯度下降的进展速度。 $x_2$ $x_1$ $\nabla^2 f(x)$

达到最小值的直接路径将是“对角线”移动，而不是以这种由垂直振荡强烈支配的方式移动。然而，梯度下降只有关于局部陡度的信息，所以它“不知道”该策略会更有效，并且它受制于 Hessian 的变幻莫测，具有不同尺度的特征值。

重新缩放输入数据会将 Hessian 矩阵更改为球形。反过来，这意味着最陡的下降可以更直接地向最小值移动，而不是急剧振荡。

重新缩放可防止过早饱和

如果您使用 sigmoidal（logistic、tanh、softmax 等）激活，那么对于超过一定大小的输入，这些激活具有平坦的梯度。这意味着如果网络输入和初始权重的乘积太小，单元将立即饱和并且梯度很小。将输入缩放到合理的范围并为初始权重使用较小的值可以改善这种情况并允许学习更快地进行。

简单神经网络输入重新缩放对损失的影响

一种常见的方法是将数据缩放为具有 0 均值和单位方差。但是还有其他方法，例如最小-最大缩放（对于 MNIST 等任务非常常见），或计算 Winsorized 均值和标准差（如果您的数据包含非常大的异常值，这可能会更好）。缩放方法的特定选择通常并不重要，只要它提供预处理并防止单元过早饱和。

神经网络输入数据归一化和居中

在机器学习中，归一化如何帮助梯度下降的收敛？

重新缩放是预处理

重新缩放可防止过早饱和

更多阅读