在 DDPG 中,如果没有-贪婪且没有动作噪音,DDPG是一种on-policy算法吗?
为什么 DDPG 是一种离策略的 RL 算法?
人工智能
强化学习
深度学习
ddpg
策略外方法
策略方法
2021-11-06 04:45:14
2个回答
DDPG 是一种离策略算法,仅仅是因为目标对我们没有学习的其他分布的期望,即确定性策略梯度可以表示为
我们有兴趣了解政策参数,表示为,但我们对由政策引起的一些贴现状态分布采取期望,我们将其表示为.
总而言之,我们正在学习off-policy,因为梯度的期望是相对于在我们没有学习的某些策略下发生的某些状态分布而采取的。
鉴于on-policy learning 是off-policy learning 的一个特例,如果replay buffer 的大小为1,即我们只使用最近的经验元组来执行参数更新,那么DDPG 将是on-policy。
如果没有动作噪声,它可能不会进行足够的探索来获得对 Q 或策略梯度的良好估计。
您可以估计行为策略的 Q,而不是估计目标策略的 Q,但是您有一个随机策略,并且确定性策略梯度定理不再起作用,因为它是随机策略梯度定理的一个特例(参见第 3.3 节DPG 论文,http ://proceedings.mlr.press/v32/silver14.pdf )。您必须使用 DPG 论文中第 2.2 节的策略梯度定理。
其它你可能感兴趣的问题