证明 MDP 中始终存在主导策略

人工智能 强化学习 马尔可夫决策过程 证明 政策
2021-11-10 08:26:04

我认为众所周知,对于任何无限视野折扣 MDP(S,A,P,r,γ), 总是存在一个主导策略π,即政策π这样对于所有策略π

Vπ(s)Vπ(s)for all sS.

但是,我在任何地方都找不到这个结果的证明。鉴于这个陈述是动态编程的基础(我认为),我对严格的证明很感兴趣。(我希望我在这里没有遗漏任何琐碎的事情)

0个回答
没有发现任何回复~