数据挖掘 - 了解教程《Using Keras and Deep Deterministic Policy Gradient to play TORCS》教程的训练阶段 - 吾爱随笔录

我正在尝试了解Ben Lau 于 2016 年 10 月 11 日发布的教程Using Keras and Deep Deterministic Policy Gradient to play TORCS ( mirror , code ) 的训练阶段。

教程说：

然后使用采样的策略梯度更新参与者策略：
$\nabla_{θ} Ĵ = \frac{\partial 问^{θ} (s, 一种)}{\partial 一种} \frac{\partial μ (s | θ)}{\partial θ}$ $\nabla_\theta J = \frac{\partial Q^{\theta}(s,a)}{\partial a}\frac{\partial \mu(s|\theta)}{\partial \theta}$

代码中对应于：actor.train(states, grads).

在actor.train()方法中，我看不到在哪里 $\frac{\partial Q^{\theta}(s,a)}{\partial a}$ 乘以 $\frac{\partial \mu(s|\theta)}{\partial \theta}$ .

我确实读过：

self.params_grad = tf.gradients(self.model.output, self.weights, -self.action_gradient)

self.action_gradient对应于哪里 $\frac{\partial Q^{\theta}(s,a)}{\partial a}$ ，并且tf.gradients(self.model.output, self.weights)对应于 $\frac{\partial \mu(s|\theta)}{\partial \theta}$ ，但我看不到乘法。

在哪里做 $\frac{\partial Q^{\theta}(s,a)}{\partial a}$ 乘以 $\frac{\partial \mu(s|\theta)}{\partial \theta}$ ?