为什么策略梯度算法不能被视为一种演员-评论方法?

数据挖掘 机器学习 强化学习 q学习 政策梯度 演员评论家
2022-03-08 19:38:50

在策略梯度算法(例如,REINFORCE)的方程推导过程中,我们实际上是在使用总奖励的期望值,我们试图将其最大化。

Rθ¯=Eτπθ[R(τ)]

由于我们使用 V(s) 作为 Critic 来指导 Actor π 的更新,因此不能将其视为 Actor-Critic 方法吗?(这里我们已经介绍了一个近似值)

Rθ¯=n=1NR(τ(n))logp(τ)
如果不是,Actor-Critic 算法中定义的 Actor 和 Critic 的明确定义是什么。

1个回答

在 RL 中,我们有:

  • Actor-only 方法,例如 REINFORCE,其中输出是动作的概率分布。REINFORCE 是一种策略梯度方法,但不使用批评者。
  • 仅限批评的方法,例如 Q-learning,其中输出是每个可用操作的预期奖励 (Q(s,a) aA)
  • 涉及 Actor 和 Critic 估计的 Actor-Critic 方法。例如流行的 DDPG 和 A3C 算法。这两种算法都是策略梯度方法。通过阅读这些论文,您将开始了解为什么简单的 REINFORCE 会在梯度估计中引入方差,以及批评者如何减少它。

策略梯度方法基于策略梯度定理。标准实现是 Actor-Critic 算法,我们同时使用 Actor(动作的概率分布)和 Critic(值函数)来权衡梯度估计中的偏差和方差。