人工智能 - 证明 MDP 中始终存在主导策略 - 吾爱随笔录

我认为众所周知，对于任何无限视野折扣 MDP $(S, A, P, r, \gamma)$ , 总是存在一个主导策略 $\pi$ ，即政策 $\pi$ 这样对于所有策略 $\pi'$ ：

V_{π} (s) \geq V_{π^{'}} (s) for all s \in S .

$V_\pi (s) \geq V_{\pi'}(s) \quad \text{for all } s\in S .$

但是，我在任何地方都找不到这个结果的证明。鉴于这个陈述是动态编程的基础（我认为），我对严格的证明很感兴趣。（我希望我在这里没有遗漏任何琐碎的事情）