大多数 RL 书籍(Sutton & Barto、Bertsekas 等)都讨论了无限视野 MDP 的策略迭代。策略迭代收敛对于有限范围 MDP 是否成立?如果是,我们如何推导出算法?
策略迭代收敛对于有限范围 MDP 是否成立?
人工智能
强化学习
马尔可夫决策过程
收敛
政策迭代
2021-11-08 06:50:46
1个回答
在讨论 Neil Slater 的回答(遗憾的是,他删除了)时,有人指出该政策也应该取决于地平线. 行动的决定可能会受到剩余步数的影响。因此,这种情况下的“策略”实际上是策略的集合索引为- 到地平线的距离。
或者,可以将其视为我们的状态空间现在用该整数扩展。所以我们可以“提升”我们原来的有限视野 MDP通过代入一个新的无限视野MDP:
新的奖励和转换函数确保视野正在缩小,并且我们最终处于捕获状态没有未来影响:
通过这种方式,我将有限范围的 MDP 减少到了无限范围的 MDP。因此,我可以将结果重用于无限 MDP 的策略迭代收敛。
几点注意事项:
- 起初,这感觉像是状态空间的巨大增加,使整个问题变得不必要的复杂。但是这种复杂性是问题所固有的:策略和价值函数都取决于到地平线的距离。因此有必要以单一自洽的方式考虑扩展的未知数。
- 无限范围的策略迭代收敛依赖于折扣因子. 有限视界不需要为收敛。这就是我觉得我有点作弊的地方。
- 我自己想出了这种方法。不过感觉还是挺明显的。我希望这种方法要么是错误的,要么已经在文献中的某个地方提到过——欢迎指出其中一种方法的评论。
其它你可能感兴趣的问题