在策略梯度算法(例如,REINFORCE)的方程推导过程中,我们实际上是在使用总奖励的期望值,我们试图将其最大化。
由于我们使用 V(s) 作为 Critic 来指导 Actor π 的更新,因此不能将其视为 Actor-Critic 方法吗?(这里我们已经介绍了一个近似值)
如果不是,Actor-Critic 算法中定义的 Actor 和 Critic 的明确定义是什么。
在策略梯度算法(例如,REINFORCE)的方程推导过程中,我们实际上是在使用总奖励的期望值,我们试图将其最大化。
由于我们使用 V(s) 作为 Critic 来指导 Actor π 的更新,因此不能将其视为 Actor-Critic 方法吗?(这里我们已经介绍了一个近似值)
如果不是,Actor-Critic 算法中定义的 Actor 和 Critic 的明确定义是什么。
在 RL 中,我们有:
策略梯度方法基于策略梯度定理。标准实现是 Actor-Critic 算法,我们同时使用 Actor(动作的概率分布)和 Critic(值函数)来权衡梯度估计中的偏差和方差。