在Sutton 和 Barto 的强化学习书第二版的“ 5.2 Monte Carlo Estimation of Action Values ”一节中,这说明:
如果模型不可用,那么估计动作值(状态-动作对的值)而不是状态值特别有用。对于模型,仅状态值就足以确定策略;就像我们在 DP 章节中所做的那样,只需向前看一步并选择导致奖励和下一个状态的最佳组合的任何动作。
但是,我不明白这在实践中是如何正确的。我可以看到它对于具有确定性环境动态的离散状态和动作空间是如何工作的,因为我们可以计算只需查看所有可能的操作并选择最佳操作即可。一旦我想到具有随机环境动态的连续状态和动作空间,计算似乎变得非常复杂和不切实际。对于连续状态和离散动作的特殊情况,我认为即使环境动态的前向模型可用,估计动作值也可能更实际,因为变得更容易(我特别想到了深度 Q 学习中采用的方法)。
我这样想是正确的,还是如果模型可用,如果状态值已经可用,估计动作值是没有用的?