为什么我们必须在无模型强化学习中使用动作值函数而不仅仅是状态值函数?

机器算法验证 马尔科夫过程 强化学习
2022-03-30 12:16:48

我读到这是因为状态值函数需要 MDP 模型的知识,而动作值函数不需要,但我也不明白为什么会这样。在我看来,它们是彼此等价的。

1个回答

这仅在单独使用时间差异学习(即 Q 学习)时才成立。在该设置中,您正在学习最佳状态-动作-价值函数 Q*,然后采取最大化 Q* 的动作。相反,如果您学习了 V*,那么如果您遵循最优策略,您就会知道您所处状态的真实价值,但这并不能帮助您决定选择哪个动作(因为 V 不是 a 的函数) . 如果您了解模型,您可以看到每个动作会获得什么奖励以及最终会进入什么状态,从而有效地从 V* 计算 Q*。