为什么 DDPG 是一种离策略的 RL 算法?

人工智能 强化学习 深度学习 ddpg 策略外方法 策略方法
2021-11-06 04:45:14

在 DDPG 中,如果没有ϵ-贪婪且没有动作噪音,DDPG是一种on-policy算法吗?

2个回答

DDPG 是一种离策略算法,仅仅是因为目标对我们没有学习的其他分布的期望,即确定性策略梯度可以表示为

θμJEstρβ[θμQ(s,a|θQ)|s=st,a=μ(st;θμ)].

我们有兴趣了解政策参数μ,表示为θ,但我们对由政策引起的一些贴现状态分布采取期望β,我们将其表示为ρβ.

总而言之,我们正在学习off-policy,因为梯度的期望是相对于在我们没有学习的某些策略下发生的某些状态分布而采取的。

鉴于on-policy learning 是off-policy learning 的一个特例,如果replay buffer 的大小为1,即我们只使用最近的经验元组来执行参数更新,那么DDPG 将是on-policy。

如果没有动作噪声,它可能不会进行足够的探索来获得对 Q 或策略梯度的良好估计。

您可以估计行为策略的 Q,而不是估计目标策略的 Q,但是您有一个随机策略,并且确定性策略梯度定理不再起作用,因为它是随机策略梯度定理的一个特例(参见第 3.3 节DPG 论文,http ://proceedings.mlr.press/v32/silver14.pdf )。您必须使用 DPG 论文中第 2.2 节的策略梯度定理。