人工智能 - 在策略梯度方法中参数化策略意味着什么？ - 吾爱随笔录

在策略梯度方法中参数化策略意味着什么？

人工智能强化学习政策梯度

2021-11-13 19:29:01

你能解释一下策略梯度方法以及对策略进行参数化意味着什么吗？我正在阅读关于强化学习的 Sutton 和 Barto 的书，但不太了解它是什么，你能举一些例子吗？

1个回答

在 RL 的上下文中，对于要参数化的策略，它通常意味着我们显式地对策略进行建模，并且在策略梯度方法中很常见。

考虑基于价值的方法，例如 Q-learning，我们的策略通常类似于 $\epsilon$ -贪婪，我们使用以下策略选择我们的行动

\begin{aligned} π (a | s) = {\begin{cases} \arg max_{a} Q (s, a) & with probability 1 - ϵ; \\ random action & with probability ϵ . \end{cases} \end{aligned}

$\begin{align} \pi(a|s) = \left\{ \begin{array}{ll} \arg \max_a Q(s,a) & \text{with probability } 1-\epsilon\;; \\ \text{random action} & \text{with probability } \epsilon\;. \end{array}\right. \end{align}$ 在这里，我们将策略参数化为

ϵ

$\epsilon$ 但是学习是通过学习 Q 函数来完成的。当我们参数化策略时，我们将显式建模

π

$\pi$ 通过以下公式：现在通过学习参数来完成学习，该参数通过执行形式 \ boldsymbol

π (s | a, θ) = P (A_{t} = a | S_{t} = s, θ_{t} = θ) .

$\pi(s|a,\boldsymbol{\theta}) = \mathbb{P}(A_t = a | S_t=s, \boldsymbol{\theta}_t = \boldsymbol{\theta})\;.$

θ

$\boldsymbol{\theta}$

J (θ)

$J(\boldsymbol{\theta})$

θ_{t + 1} = θ_{t} + α \hat{Δ J (θ_{t})} .

$\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t + \alpha \hat{\Delta J(\boldsymbol{\theta}_t)}.$

请注意，根据 Sutton 和 Barto 教科书，是 \Delta J(\boldsymbol{\theta}_t) 的噪声随机估计，前者近似后者在期待中。 $\hat{\Delta J(\boldsymbol{\theta}_t)}$ $\Delta J(\boldsymbol{\theta}_t)$

该策略可以以任何方式参数化，只要它相对于参数是可微的。通常在 Deep RL 中，策略被参数化为神经网络，因此将是网络的权重。 $\boldsymbol{\theta}$

其它你可能感兴趣的问题

上一篇为什么 RL 实现会集中在一个动作上？下一篇关于收敛性证明的疑问εϵ没有探索开始的软政策