策略梯度损失

数据挖掘 Python 张量流 损失函数 政策梯度
2022-02-26 01:13:52

我对计算损失的过程感到困惑。我的代码如下:

logits = policy.predictions(states) 
negative_likelihoods = tf.nn.softmax_cross_entropy_with_logits(labels=**actions**, logits=logits)

weighted_negative_likelihoods = tf.multiply(negative_likelihoods, q_values)

loss = tf.reduce_mean(weighted_negative_likelihoods)

gradients = loss.gradients(loss, variables)

logits 是没有 softmax 的策略网络的输出。

我的问题是:

行动是什么意思?是代理在 t 步执行的动作还是应该在 t 步执行的动作?谢谢

0个回答
没有发现任何回复~