数据挖掘 - 策略梯度 - 和自动微分 (Pytorch/Tensorflow) - 吾爱随笔录

数据挖掘张量流强化学习火炬政策梯度

2022-02-18 03:00:45

在策略梯度中，我们有这样的东西：

我的理解是否正确，如果我在最后一层应用对数交叉熵，梯度将根据上面的公式自动计算？

1个回答

是的，只取最后一层的交叉熵损失，然后取它的梯度。实际行动将成为目标。

例如，在 PyTorch 中：在最后一层应用CrossEntropyLoss（不需要做 softmax，因为它是由这个函数隐式完成的）

其它你可能感兴趣的问题