人工智能 - 如何使用 REINFORCE 代替反向传播？ - 吾爱随笔录

人工智能神经网络反向传播加强

2021-11-10 22:45:32

在具有随机层的神经网络中，我已经看到使用 REINFORCE 估计器来估计梯度（因为它不能直接计算）。

但是，我还没有弄清楚这到底是如何工作的。我们如何使用 REINFORCE 学习规则“绕过”梯度的计算？有人对此有任何见解吗？

1个回答

REINFORCE 被称为梯度估计器，因为它不适用于真正的梯度，它来自损失函数和整个数据，但构成了启发式损失，因此它最终得到的梯度不是真正的梯度。让我们看看 REINFORCE 方程：

Δ θ_{t} = α \nabla_{θ} \log π_{θ} (a_{t} ∣ s_{t}) v_{t}

${\huge \Delta \mathbf{\theta}_t = \alpha \nabla_{\mathbf{\theta}} \log \pi_{\mathbf{\theta}} (a_t \mid s_t) v_t }%$

如图所示，梯度仍然存在（ $\nabla_\theta$ ）。但是策略对应于网络的输出，因此我们可以使用反向传播来计算启发式损失相对于权重的梯度。我们不知道真正的梯度，但这种估计可以完成这项工作。

其它你可能感兴趣的问题