策略迭代收敛对于有限范围 MDP 是否成立?

人工智能 强化学习 马尔可夫决策过程 收敛 政策迭代
2021-11-08 06:50:46

大多数 RL 书籍(Sutton & Barto、Bertsekas 等)都讨论了无限视野 MDP 的策略迭代。策略迭代收敛对于有限范围 MDP 是否成立?如果是,我们如何推导出算法?

1个回答

在讨论 Neil Slater 的回答(遗憾的是,他删除了)时,有人指出该政策π也应该取决于地平线h. 行动的决定a可能会受到剩余步数的影响。因此,这种情况下的“策略”实际上是策略的集合πh(a|s)索引为h- 到地平线的距离。

或者,可以将其视为我们的状态空间S现在用该整数扩展。所以我们可以“提升”我们原来的有限视野 MDP(S,A,P,R)通过代入一个新的无限视野MDP:

S(S×{0,1,,h}){ϵ}AA,RR~,PP~
新的奖励和转换函数确保视野正在缩小,并且我们最终处于捕获状态ϵ没有未来影响:
P~(sn1|sn,a)=P(s|s,a)P~(ϵ|s0,a)=P~(ϵ|ϵ,a)=1R~(sn,a,sn1)=R(s,a,s)R~(s0,a,ϵ)=R~(ϵ,a,ϵ)=0
通过这种方式,我将有限范围的 MDP 减少到了无限范围的 MDP。因此,我可以将结果重用于无限 MDP 的策略迭代收敛。

几点注意事项:

  • 起初,这感觉像是状态空间的巨大增加,使整个问题变得不必要的复杂。但是这种复杂性是问题所固有的:策略和价值函数都取决于到地平线的距离。因此有必要以单一自洽的方式考虑扩展的未知数。
  • 无限范围的策略迭代收敛依赖于折扣因子γ<1. 有限视界不需要γ为收敛。这就是我觉得我有点作弊的地方。
  • 我自己想出了这种方法。不过感觉还是挺明显的。我希望这种方法要么是错误的,要么已经在文献中的某个地方提到过——欢迎指出其中一种方法的评论。