在具有随机层的神经网络中,我已经看到使用 REINFORCE 估计器来估计梯度(因为它不能直接计算)。
一些这样的例子是Show、Attend 和 Tell、视觉注意的循环模型和具有视觉注意的多对象识别。
但是,我还没有弄清楚这到底是如何工作的。我们如何使用 REINFORCE 学习规则“绕过”梯度的计算?有人对此有任何见解吗?
在具有随机层的神经网络中,我已经看到使用 REINFORCE 估计器来估计梯度(因为它不能直接计算)。
一些这样的例子是Show、Attend 和 Tell、视觉注意的循环模型和具有视觉注意的多对象识别。
但是,我还没有弄清楚这到底是如何工作的。我们如何使用 REINFORCE 学习规则“绕过”梯度的计算?有人对此有任何见解吗?
REINFORCE 被称为梯度估计器,因为它不适用于真正的梯度,它来自损失函数和整个数据,但构成了启发式损失,因此它最终得到的梯度不是真正的梯度。让我们看看 REINFORCE 方程:
如图所示,梯度仍然存在()。但是策略对应于网络的输出,因此我们可以使用反向传播来计算启发式损失相对于权重的梯度。我们不知道真正的梯度,但这种估计可以完成这项工作。