策略梯度 - 和自动微分 (Pytorch/Tensorflow)

数据挖掘 张量流 强化学习 火炬 政策梯度
2022-02-18 03:00:45

在策略梯度中,我们有这样的东西: 在此处输入图像描述

我的理解是否正确,如果我在最后一层应用对数交叉熵,梯度将根据上面的公式自动计算?

1个回答

是的,只取最后一层的交叉熵损失,然后取它的梯度。实际行动将成为目标。

例如,在 PyTorch 中:在最后一层应用CrossEntropyLoss(不需要做 softmax,因为它是由这个函数隐式完成的)