人工智能 - 策略迭代收敛对于有限范围 MDP 是否成立？ - 吾爱随笔录

策略迭代收敛对于有限范围 MDP 是否成立？

人工智能强化学习马尔可夫决策过程收敛政策迭代

2021-11-08 06:50:46

大多数 RL 书籍（Sutton & Barto、Bertsekas 等）都讨论了无限视野 MDP 的策略迭代。策略迭代收敛对于有限范围 MDP 是否成立？如果是，我们如何推导出算法？

1个回答

在讨论 Neil Slater 的回答（遗憾的是，他删除了）时，有人指出该政策 $\pi$ 也应该取决于地平线 $h$ . 行动的决定 $a$ 可能会受到剩余步数的影响。因此，这种情况下的“策略”实际上是策略的集合 $\pi_h(a|s)$ 索引为 $h$ - 到地平线的距离。

或者，可以将其视为我们的状态空间 $\mathcal{S}$ 现在用该整数扩展。所以我们可以“提升”我们原来的有限视野 MDP $(\mathcal{S},\mathcal{A},P,R)$ 通过代入一个新的无限视野MDP：

S \to (S \times {0, 1, \dots, h}) \cup {ϵ} A \to A, R \to \tilde{R}, P \to \tilde{P}

$\mathcal{S} \to \left(\mathcal{S}\times\{0,1,\dots,h\}\right) \cup \{\epsilon\}\\ \mathcal{A} \to \mathcal{A},\; R \to \tilde R,\; P \to \tilde P$ 新的奖励和转换函数确保视野正在缩小，并且我们最终处于捕获状态

ϵ

$\epsilon$ 没有未来影响：

\tilde{P} (s_{n - 1}^{'} | s_{n}, a) = P (s^{'} | s, a) \tilde{P} (ϵ | s_{0}, a) = \tilde{P} (ϵ | ϵ, a) = 1 \tilde{R} (s_{n}, a, s_{n - 1}^{'}) = R (s, a, s^{'}) \tilde{R} (s_{0}, a, ϵ) = \tilde{R} (ϵ, a, ϵ) = 0

$\tilde P(s'_{n-1}|s_n,a) = P(s'|s,a)\quad\quad \tilde P(\epsilon|s_0,a) =\tilde P(\epsilon|\epsilon,a) = 1\\ \tilde R(s_n,a,s'_{n-1}) = R(s,a,s')\quad\quad \tilde R(s_0,a,\epsilon) =\tilde R(\epsilon,a,\epsilon) = 0$ 通过这种方式，我将有限范围的 MDP 减少到了无限范围的 MDP。因此，我可以将结果重用于无限 MDP 的策略迭代收敛。

几点注意事项：

起初，这感觉像是状态空间的巨大增加，使整个问题变得不必要的复杂。但是这种复杂性是问题所固有的：策略和价值函数都取决于到地平线的距离。因此有必要以单一自洽的方式考虑扩展的未知数。
无限范围的策略迭代收敛依赖于折扣因子 $\gamma < 1$ . 有限视界不需要 $\gamma$ 为收敛。这就是我觉得我有点作弊的地方。
我自己想出了这种方法。不过感觉还是挺明显的。我希望这种方法要么是错误的，要么已经在文献中的某个地方提到过——欢迎指出其中一种方法的评论。

其它你可能感兴趣的问题

上一篇如何决定训练测试拆分？下一篇我的深度 Q 学习网络无法学习 OpenAI 健身房的车斗问题