从这篇文章中,它说:
我们可以通过缩放来加速梯度下降。这是因为 θ 会在小范围内快速下降,而在大范围内缓慢下降,因此当变量非常不均匀时,它会低效地振荡到最优值。
对于线性回归,从方程 对我来说,为什么较大范围的变量收敛较慢或如何/为什么发生振荡对我来说并不明显。
从这篇文章中,它说:
我们可以通过缩放来加速梯度下降。这是因为 θ 会在小范围内快速下降,而在大范围内缓慢下降,因此当变量非常不均匀时,它会低效地振荡到最优值。
对于线性回归,从方程 对我来说,为什么较大范围的变量收敛较慢或如何/为什么发生振荡对我来说并不明显。
这个问题的答案仅仅在于人们如何执行或应用差异化的链式规则。要理解这一点,首先看一下反向传播,它只是一种通过计算预测值和准确值之间的误差来更新权重的方法。当这个误差被反向传播以优化您的目标函数时,将在后续层中计算导数并乘以学习率,然后更新权重。
现在想象一下,如果您有一些特征并且一个特征的范围是从 0 到 1,而另一个特征的范围是从 10 到 1000。现在,当您对具有高范围值的特征进行反向传播微分时,您可能会得到导数与具有低范围值的特征相比更大,这将导致异常的权重更新,并且会在这些特征方面给我们的模型增加一定的偏差,即使该特征与具有低范围值的特征可能具有同等重要性当统计检验完成时。
因此,为了避免这种情况,引入了偏差,使用了特征缩放,它允许我们以标准比例缩放特征,而不会将任何类型的偏差与它相关联。这适用于各种机器学习模型,例如 SVM、KNN 等以及神经网络。缩放特征的另一个原因是避免反向传播大型导数,这会增加计算量。
缩放的另一个奇怪的方面是,如果您不缩放特征,那么与缩放特征误差表面相比,您将有不同的误差表面(因为在不存在时引入了偏差),这可能会阻止您达到最佳最小值因此,您的目标函数就是为什么缩放可以帮助您确保至少达到局部最小值,因此可以说缩放可以帮助您在进行梯度下降时提高收敛速度。
使数据居中使误差函数更加球形,这反过来又有助于梯度下降更快地收敛,否则,损失函数可能具有更高的曲率并需要更多步骤才能收敛。 https://stats.stackexchange.com/questions/315027/why-is-mean-normalization-useful-in-gradient-descent