在 Barto 和 Sutton 的书中,提出了 3 种解决 RL 问题的方法:DP、Monte Carlo 和 TD。但是策略梯度方法(或仅参与者方法)属于哪一类?我应该将它们归类为解决强化学习问题的第四种方法吗?
如何在 RL 中对策略梯度方法进行分类?
人工智能
强化学习
术语
政策梯度
2021-11-12 06:44:00
1个回答
DP、Monte Carlo 和 TD 是估计收益的方法。策略梯度描述了学习策略的方法。因此,策略梯度的用途与您提到的其他事情不同。为清楚起见,您可以使用 Monte Carlo 或 TD 方法来估计收益,以构建您从中获得策略梯度的损失。