人工智能 - 策略梯度方法中概率对数的梯度具体是什么？ - 吾爱随笔录

策略梯度方法中概率对数的梯度具体是什么？

人工智能强化学习目标函数政策梯度坡度

2021-11-18 03:53:28

我对在策略梯度方法中计算梯度的具体程度感到有些困惑（只是对它的直观理解）。

这个数学堆栈交换帖子很接近，但我还是有点困惑。

在标准的监督学习中，可以专门获得偏导数，因为我们想了解成本对输入参数的导数，然后朝着最小化这个误差的方向进行调整。

策略梯度则相反，因为我们希望最大限度地提高采取良好行动的可能性。但是，我不明白我们得到的偏导数是什么 - 换句话说，成本函数的“等价物”是什么，特别是对于 $\nabla_\theta \log\pi_\theta$ ?

2个回答

考虑一个函数 $f(x)$ 在哪里 $x$ 是一个随机变量，其分布取决于 $\theta$ . 目标是最小化

\begin{aligned} E_{x} [f (x)] = \int_{x} f (x) π (x, θ) d x \end{aligned}

$\begin{align*} \mathbb{E}_x[f(x)] = \int_x f(x) \pi(x, \theta) dx \end{align*}$ 在哪里

π (x, θ)

$\pi(x, \theta)$ 是概率密度

x

$x$ 给定参数

θ

$\theta$ （要正式，您应该使用虚拟变量代替 x）。那么梯度是

\begin{aligned} (1) & \nabla_{θ} E_{x} [f (x)] = \int_{x} f (x) \nabla_{θ} π (x, θ) d x \end{aligned}

$\begin{align*} \nabla_{\theta} \mathbb{E}_x[f(x)] = \int_x f(x) \nabla_{\theta}\pi(x, \theta) dx \label{1}\tag{1} \end{align*}$ 方程。(1)本质上是策略梯度。我认为当写成 Eq 时。(1)，很清楚梯度的实际含义。

要了解为什么这是策略梯度，首先我们有

\begin{aligned} \int_{x} f (x) \nabla_{θ} π (x, θ) d x = \int_{x} f (x) \nabla_{θ} π (x, θ) \frac{π (x, θ)}{π (x, θ)} d x = E_{x} [f (x) \nabla_{θ} \log π (x, θ)] . \end{aligned}

$\begin{align*} \int_x f(x) \nabla_{\theta}\pi(x, \theta) dx = \int_x f(x) \nabla_{\theta}\pi(x, \theta) \dfrac{\pi(x, \theta)}{\pi(x, \theta)}dx = \mathbb{E}_x[ f(x) \nabla_{\theta}\log \pi(x, \theta)]. \end{align*}$ 现在解释

x

$x$ 作为行动，并解释

f (x)

$f(x)$ 成为预期回报。我省略了这个的全部细节，但希望你能明白。

策略梯度只是预期收益的梯度，相对于动作分布的参数。

我建议不要试图将这一点与监督学习联系起来。

政策 $\pi(\cdot; \theta)$ 只是一个由 theta 参数化的函数。如果我们采取 $\log$ 这个函数，它仍然只是一个函数。我们希望对该函数对参数进行（偏）导数，以便我们可以对参数执行梯度上升步骤。

一个简单的例子可以通过让 $\pi(a; \alpha, \beta) = \exp(\alpha + \beta a)$ . 在策略梯度定理中，我们必须首先记录可以给我们的策略 $\log(\pi(a; \alpha, \beta)) = \alpha + \beta a$ , 参数的偏导数是 $\nabla_\alpha \log(\pi(a; \alpha, \beta)) = 1$ 和 $\nabla_\beta \log(\pi(a; \alpha, \beta)) = a$ . 然后我们可以使用这些偏导数在我们的目标（价值函数，这当然是我们想要最大化的）的梯度方向上执行梯度上升更新 $\alpha$ 和 $\beta$ 对于给定的回报 $G_t$ 和行动 $a_t$ 经过

α^{'} = α + G_{t} \times \nabla_{α} \log (π (a_{t}; α, β)) = α + G_{t} \times 1 β^{'} = β + G_{t} \times \nabla_{α} \log (π (a_{t}; α, β)) = β + G_{t} a_{t} .

$\begin{equation} \alpha' = \alpha + G_t \times \nabla_\alpha \log(\pi(a_t; \alpha, \beta)) = \alpha + G_t \times 1 \; \\ \beta' = \beta + G_t \times \nabla_\alpha \log(\pi(a_t; \alpha, \beta)) = \beta + G_t a_t\;. \end{equation}$

然而，在实践中，您可能需要一个更复杂的策略函数，通常是某种描述的神经网络。然而，一切都转化为这些更复杂的函数，你将需要计算更多的偏导数。

其它你可能感兴趣的问题

上一篇下采样是使用步幅的唯一目的吗？下一篇在非零和游戏中，在蒙特卡洛树搜索中传播哪个值？