如何使用 REINFORCE 代替反向传播?

人工智能 神经网络 反向传播 加强
2021-11-10 22:45:32

在具有随机层的神经网络中,我已经看到使用 REINFORCE 估计器来估计梯度(因为它不能直接计算)。

一些这样的例子是Show、Attend 和 Tell视觉注意的循环模型和具有视觉注意的对象识别

但是,我还没有弄清楚这到底是如何工作的。我们如何使用 REINFORCE 学习规则“绕过”梯度的计算?有人对此有任何见解吗?

1个回答

REINFORCE 被称为梯度估计器,因为它不适用于真正的梯度,它来自损失函数和整个数据,但构成了启发式损失,因此它最终得到的梯度不是真正的梯度。让我们看看 REINFORCE 方程:

Δθt=αθlogπθ(atst)vt

如图所示,梯度仍然存在(θ)。但是策略对应于网络的输出,因此我们可以使用反向传播来计算启发式损失相对于权重的梯度。我们不知道真正的梯度,但这种估计可以完成这项工作。