我在 youtube 上关注斯坦福强化学习视频。其中一项任务要求为Gym 的 FrozenLake-v0 环境编写策略评估代码。
在课程(和我看过的书)中,他们将政策评估定义为
我的困惑是,在冰冻湖的例子中,奖励与行动的结果有关。因此,对于每一对状态-动作,我都有一个列表,其中包含可能的下一个状态、到达该下一个状态的概率和奖励。例如,处于目标状态并执行任何操作都会带来,但是处于任何将我带到目标状态的状态都会给我奖励.
这是否意味着,对于这个例子,我需要重写像这样:
我在 youtube 上关注斯坦福强化学习视频。其中一项任务要求为Gym 的 FrozenLake-v0 环境编写策略评估代码。
在课程(和我看过的书)中,他们将政策评估定义为
我的困惑是,在冰冻湖的例子中,奖励与行动的结果有关。因此,对于每一对状态-动作,我都有一个列表,其中包含可能的下一个状态、到达该下一个状态的概率和奖励。例如,处于目标状态并执行任何操作都会带来,但是处于任何将我带到目标状态的状态都会给我奖励.
这是否意味着,对于这个例子,我需要重写像这样:
Sutton 和 Barto所著的著名书籍Reinforcement Learning: An Introduction(第 2 版)提供了与您的第一个更新规则不同的更新规则来进行策略评估。他们的更新规则更类似于您的第二个更新规则。请参阅第 4.1 节。他们还在本书第 75 页提供了用于策略评估的伪代码。您还可以在此处找到伪代码。
此外,请注意更新规则不需要更改,因为奖励与操作的结果相关联。此信息被编码在函数中(转换函数)和马尔可夫决策过程的(奖励函数),它包含在更新规则中。如果您想了解更新规则,您应该阅读被引书籍的相关页面(尤其是第 4 章)。