开启和关闭策略确定性演员评论家之间有什么区别?

人工智能 强化学习 术语 演员批评方法 策略方法 策略外方法
2021-11-11 03:36:29

在论文Deterministic Policy Gradient Algorithms中,我对第 4.1 章和第 4.2 章感到非常困惑,即“On and off-policy Deterministic Actor-Critic”。

我不知道两种算法有什么区别。

我只注意到方程 11 和 16 不同,不同之处在于 Q 函数的作用部分at+1在等式 11 和μ(st+1)在等式 16 中。如果这真的很重要,我该如何计算at+1在等式 11 中?

2个回答

这里的转折是at+1在 (11) 和μ(st+1)在 (16) 中是相同的,实际上at在 on-policy 的情况下和at在off-policy的情况下是不同的。

理解的关键在于,在策略算法中,您必须使用策略在更新步骤中生成的动作(以及一般来说的轨迹)(以改进策略本身)。这意味着在 on-policy 情况下ai=μ(si)(在等式 11-13 中)。

而在非策略情况下,您可以使用任何轨迹来改进您的价值/行动价值函数,这意味着行动at可以由任何分布生成at π(st,at). 然而,在 (16) 中,算法明确指出动作值函数 (Qw) 必须在μst+1(就像在 on-policy 案例中一样)而不是在at这是政策产生的轨迹中的实际行动π.

on-policy 和 off-policy 的主要区别在于如何获取样本以及我们优化什么策略。

在 off-policy 确定性 actor-critic 中,轨迹是来自 beta 分布的样本(也称为行为策略),而不是我们优化的策略(即μθ)。然而,在 on-policy actor-critic 中,行动at+1从目标策略中采样μθ我们优化的策略也是μθ.