人工智能 - 当奖励与行动结果相关时，我如何实施政策评估？ - 吾爱随笔录

我在 youtube 上关注斯坦福强化学习视频。其中一项任务要求为Gym 的 FrozenLake-v0 环境编写策略评估代码。

在课程（和我看过的书）中，他们将政策评估定义为

V_{k}^{π} (s) = r (s, π (s)) + γ \sum_{s^{'}} p (s^{'} | s, π (s)) V_{k - 1}^{π} (s^{'})

$V^\pi_k(s)=r(s,\pi(s))+\gamma\sum_{s'}p(s'|s,\pi(s))V^\pi_{k-1}(s')$

我的困惑是，在冰冻湖的例子中，奖励与行动的结果有关。因此，对于每一对状态-动作，我都有一个列表，其中包含可能的下一个状态、到达该下一个状态的概率和奖励。例如，处于目标状态并执行任何操作都会带来 $0$ ，但是处于任何将我带到目标状态的状态都会给我奖励 $1$ .

这是否意味着，对于这个例子，我需要重写 $V^\pi_k(s)$ 像这样：

V_{k}^{π} (s) = \sum_{s^{'}} p (s^{'} | s, π (s)) [r (s, π (s), s^{'}) + γ V_{k - 1}^{π} (s^{'})]

$V^\pi_k(s)= \sum_{s'} p(s'|s,\pi(s)) [r(s,\pi(s), s')+ \gamma V^\pi_{k-1}(s')]$