我对计算损失的过程感到困惑。我的代码如下:
logits = policy.predictions(states)
negative_likelihoods = tf.nn.softmax_cross_entropy_with_logits(labels=**actions**, logits=logits)
weighted_negative_likelihoods = tf.multiply(negative_likelihoods, q_values)
loss = tf.reduce_mean(weighted_negative_likelihoods)
gradients = loss.gradients(loss, variables)
logits 是没有 softmax 的策略网络的输出。
我的问题是:
行动是什么意思?是代理在 t 步执行的动作还是应该在 t 步执行的动作?谢谢