当奖励与行动结果相关时,我如何实施政策评估?

人工智能 强化学习 数学 执行 健身房 政策评估
2021-10-25 11:02:35

我在 youtube 上关注斯坦福强化学习视频。其中一项任务要求为Gym 的 FrozenLake-v0 环境编写策略评估代码。

在课程(和我看过的书)中,他们将政策评估定义为

Vkπ(s)=r(s,π(s))+γsp(s|s,π(s))Vk1π(s)

我的困惑是,在冰冻湖的例子中,奖励与行动的结果有关。因此,对于每一对状态-动作,我都有一个列表,其中包含可能的下一个状态、到达该下一个状态的概率和奖励。例如,处于目标状态并执行任何操作都会带来0,但是处于任何将我带到目标状态的状态都会给我奖励1.

这是否意味着,对于这个例子,我需要重写Vkπ(s)像这样:

Vkπ(s)=sp(s|s,π(s))[r(s,π(s),s)+γVk1π(s)]

1个回答

Sutton 和 Barto所著的著名书籍Reinforcement Learning: An Introduction(第 2 版)提供了与您的第一个更新规则不同的更新规则来进行策略评估。他们的更新规则更类似于您的第二个更新规则。请参阅第 4.1 节他们还在本书第 75 页提供了用于策略评估的伪代码。您还可以在此处找到伪代码。

此外,请注意更新规则不需要更改,因为奖励与操作的结果相关联。此信息被编码在函数中p(转换函数)和r马尔可夫决策过程的(奖励函数),它包含在更新规则中。如果您想了解更新规则,您应该阅读被引书籍的相关页面(尤其是第 4 章)。