数据挖掘 - 策略梯度损失 - 吾爱随笔录

我对计算损失的过程感到困惑。我的代码如下：

logits = policy.predictions(states) 
negative_likelihoods = tf.nn.softmax_cross_entropy_with_logits(labels=**actions**, logits=logits)

weighted_negative_likelihoods = tf.multiply(negative_likelihoods, q_values)

loss = tf.reduce_mean(weighted_negative_likelihoods)

gradients = loss.gradients(loss, variables)

logits 是没有 softmax 的策略网络的输出。

我的问题是：

行动是什么意思？是代理在 t 步执行的动作还是应该在 t 步执行的动作？谢谢