以基线作为价值函数的普通策略梯度和优势参与者批评者之间有什么区别?

人工智能 强化学习 比较 政策梯度 演员批评方法 优势-演员-评论家
2021-11-05 09:30:11

以基线作为价值函数的普通策略梯度 (VPG) 和优势参与者评论家 (A2C) 之间有什么区别?

通过香草政策梯度,我特别指的是 spin up 对 VPG 的解释。

1个回答

以基线为价值函数的 Vanilla Policy Gradient (VPG) 与 Advantage Actor-Critic (A2C) 之间的差异与 Monte Carlo Control 和 SARSA 之间的差异非常相似:

  • VPG 更新中使用的价值估计基于在剧集结束时计算的完整抽样回报。

  • A2C 更新中使用的值估计基于从例如单步差和贝尔曼函数引导的时间差。

这导致以下实际差异:

  • A2C 可以一个插曲中学习,这可以比 VPG 更快地改进策略。

  • A2C 可以在持续的环境中学习,而 VPG 不能。

  • A2C 依赖于最初有偏差的值估计,因此可以进行更多调整以找到允许稳定学习的代理的超参数。而 VPG 通常具有更高的方差,并且可能需要更多的样本才能达到相同的学习程度。