人工智能 - 如何在 RL 中对策略梯度方法进行分类？ - 吾爱随笔录

人工智能强化学习术语政策梯度

2021-11-12 06:44:00

在 Barto 和 Sutton 的书中，提出了 3 种解决 RL 问题的方法：DP、Monte Carlo 和 TD。但是策略梯度方法（或仅参与者方法）属于哪一类？我应该将它们归类为解决强化学习问题的第四种方法吗？

1个回答

DP、Monte Carlo 和 TD 是估计收益的方法。策略梯度描述了学习策略的方法。因此，策略梯度的用途与您提到的其他事情不同。为清楚起见，您可以使用 Monte Carlo 或 TD 方法来估计收益，以构建您从中获得策略梯度的损失。

其它你可能感兴趣的问题