我认为众所周知,对于任何无限视野折扣 MDP(小号,一,磷, r , γ)(S,A,P,r,γ), 总是存在一个主导策略ππ,即政策ππ这样对于所有策略π'π′:五π(秒) ≥五π'(秒)对于所有 s ∈ S.Vπ(s)≥Vπ′(s)for all s∈S.
但是,我在任何地方都找不到这个结果的证明。鉴于这个陈述是动态编程的基础(我认为),我对严格的证明很感兴趣。(我希望我在这里没有遗漏任何琐碎的事情)