策略梯度 - 和自动微分 (Pytorch/Tensorflow)
数据挖掘
张量流
强化学习
火炬
政策梯度
2022-02-18 03:00:45
1个回答
是的,只取最后一层的交叉熵损失,然后取它的梯度。实际行动将成为目标。
例如,在 PyTorch 中:在最后一层应用CrossEntropyLoss(不需要做 softmax,因为它是由这个函数隐式完成的)
其它你可能感兴趣的问题
