我正在尝试了解Ben Lau 于 2016 年 10 月 11 日发布的教程Using Keras and Deep Deterministic Policy Gradient to play TORCS ( mirror , code ) 的训练阶段。
教程说:
然后使用采样的策略梯度更新参与者策略:
代码中对应于:actor.train(states, grads)
.
在actor.train()
方法中,我看不到在哪里乘以.
我确实读过:
self.params_grad = tf.gradients(self.model.output, self.weights, -self.action_gradient)
self.action_gradient
对应于哪里,并且tf.gradients(self.model.output, self.weights)
对应于,但我看不到乘法。
在哪里做乘以?