机器算法验证 - 神经网络反向传播中动量项的直觉是什么？ - 吾爱随笔录

神经网络反向传播中动量项的直觉是什么？

机器算法验证机器学习神经网络梯度下降

2022-03-28 03:10:11

我被困在等式 $(21)$

记号注意事项：

层的激活函数是 $j$ $y_j$
层的权重之和为 $j$ $x_j$
最终标签是 $t$

我想弄清楚在哪里

η Δ w_{k j} (n - 1)

$\eta \Delta w_{kj} (n-1)$

来自最终等式 $(21)$

Δ w_{k j} (n) = α δ_{j} y_{k} + η Δ w_{k j} (n - 1)

$\Delta w_{kj}(n) = \alpha \delta_j y_k + \eta \Delta w_{kj} (n-1)$

作者提到它是一个动量术语，没有真正详细说明它。

我认为计算如下 $\Delta w_{kj}$

Δ w_{k j} = - α \frac{\partial E}{\partial w_{k j}}

$\Delta w_{kj} = - \alpha \frac{\partial E}{\partial w_{kj}}$

对于最终输出层之前的 1 层：

Δ w_{k j} = - α (- (t_{j} - y_{j})) y_{j} (1 - y_{j}) y_{k}

$\Delta w_{kj} = - \alpha (-(t_j-y_j))y_j(1-y_j)y_k$

对于所有其他层：

Δ w_{k j} = - α (δ_{i} w_{j i}) y_{j} (1 - y_{j}) y_{k}

$\Delta w_{kj} = - \alpha (\delta_{i}w_{ji}) y_j(1-y_j)y_k$

那么什么是动量项呢？

有人可以帮我吗？

2个回答

由于您要求直觉，因此一般的想法是：假设您正在使用随机梯度下降 (SGD) 来遍历损失函数的表面。进一步想象那个表面看起来像一座山，并且你从顶部附近开始。表面有许多小峭壁和嘴唇，但显然是向下通往山谷。当您使用 SGD 穿越表面时，导数的大小和符号经常变化，因此您下山的方向和速度会有很大的波动。如果您包含动量项，那么您的方向现在不仅取决于每个新停止点的梯度来确定您的运动，还取决于您在上次更新中运动的大小和方向。而且由于您上次更新移动的数量和方向也取决于之前的更新，您可以看到每个移动都取决于先前移动的整个历史。很快你就从山下奔向山谷。

请注意，您距离更新越远，确定当前更新的重要性就越低，因为如果您在时间扩展动量项，那么从时间开始更新的贡献是：其中是动量，是时间 $t$ $t-k$

α^{k + 1} Δ ω_{t - k}

$\begin{equation} \alpha^{k+1}\Delta\omega_{t-k} \end{equation}$

α \in [0, 1]

$\alpha\in[0,1]$

Δ ω_{t - k}

$\Delta\omega_{t-k}$

t - k

$t-k$

首先，假设我们刚刚开始训练，这样：

n = 0

$\begin{equation} n = 0 \end{equation}$ 和

ω_{k j} (0) = α δ_{j} y_{k}

$\begin{equation} \omega_{kj}(0) = \alpha\delta_jy_k \end{equation}$ 因为这是第一步。如果我们进一步训练

n = 1

$\begin{equation} n = 1 \end{equation}$ 然后：

ω_{k j} (1) = α δ_{j} y_{k} + η ω_{k j} (0)

$\begin{equation} \omega_{kj}(1) = \alpha\delta_jy_k + \eta\omega_{kj}(0) \end{equation}$ 还有一个

n = 2

$\begin{equation} n = 2 \end{equation}$

ω_{k j} (2) = α δ_{j} y_{k} + η ω_{k j} (1)

$\begin{equation} \omega_{kj}(2) = \alpha\delta_jy_k + \eta\omega_{kj}(1) \end{equation}$ 并替代：

ω_{k j} (2) = α δ_{j 2} y_{k 2} + η (α δ_{j 1} y_{k 1} + η ω_{k j} (0))

$\begin{equation} \omega_{kj}(2) = \alpha\delta_{j2}y_{k2} + \eta(\alpha\delta_{j1}y_{k1} + \eta\omega_{kj}(0)) \end{equation}$

你可以看到，如果我们继续这个趋势，即使是一个时间步长

n = 200

$\begin{equation} n = 200 \end{equation}$ 仍然会受到时间步 0 的第一个权重梯度的轻微影响（但非常非常轻微）。这是动量的概念：具有过去速度记忆的速度。这个概念与物理学直接相关。

如果我将一个块向前推 10m/s（将其视为我的第一个时间步），然后我以 -20m/s 的速度推它（我的第二个时间步）；然后通过动量，这将是：

新速度 = -20m/s + u (100m/s) 其中u是摩擦力（或者在我们的例子中是eta）。所以如果摩擦力是 0.1，我的最终速度实际上是 -20 + (0.1)(100) = -10。我接近-20，但我并不完全在那里。如果我再次以 -20m/s 的速度推动块，我的结果是：-10 + (0.1)(-20) = -12，我更接近我希望达到的速度。

在神经网络的概念中，这意味着如果我沿着梯度下降并寻找最小值，我不想在每个时间步大幅改变方向，因为某些方向可能会导致谷值或局部最小值。因此，我想朝着我的大部分体重梯度推动我的方向前进。改变这个方向通常需要大量的权重梯度来对抗我当前的梯度“流”。

其它你可能感兴趣的问题

上一篇R 的平方总是大于 1 下一篇时间序列和 XGBoost