数据挖掘 - 具有连续动作空间的策略梯度 - 吾爱随笔录

数据挖掘强化学习 dqn 政策梯度艾

2022-03-03 20:11:51

如何将强化/策略梯度算法应用于连续动作空间。我了解到策略梯度的优点之一是，它适用于连续动作空间。我能想到的一种方法是将动作空间离散化，就像我们为 dqn 所做的那样。我们是否也应该对策略梯度算法采用相同的方法？或者有没有其他方法可以做到这一点？

谢谢

1个回答

是的，这是可能的。可以通过以下方式完成：

我们假设动作分布是高斯分布，即我们需要学习参数 $\theta$ 的 $\mathcal{N}(a|\mu_\theta,\sigma_\theta)$ . 让我们这么说 $\theta$ 由神经网络的权重给出，我们通过优化目标找到

max_{θ} E_{p_{θ}} [R (s, a) p_{θ} (a | s)],

$\max_\theta \mathbb{E}_{p_{\theta}}\left[ R(s,a)p_\theta(a|s)\right],$ 其中和是累积折扣奖励。然后梯度就是每个策略梯度定理。

p_{θ} (s, a) = N (a | μ_{θ}, σ_{θ})

$p_\theta(s,a) = \mathcal{N}(a|\mu_\theta, \sigma_\theta)$

R (s, a)

$R(s,a)$

E_{p_{θ}} [\nabla_{θ} R (s, a) \log p_{θ} (a | s)]

$\mathbb{E}_{p_{\theta}}\left[\nabla_\theta R(s,a) \log p_\theta(a|s) \right]$

在实践中，我们设计了一个神经网络，每个动作维度既可以学习也可以保持固定。如果学会了，我们将输出解释为，因此它可以取任何值（例如，变为负数）。为了对动作进行采样，我们使用网络学习的输出。 $\mu$ $\sigma$ $\log \sigma$

其它你可能感兴趣的问题