我开始学习贝尔曼方程,我想到了一个问题。
一项政策π
为什么这行得通?
难道最优策略认为一个状态不是那么好并给他一个低值但与其他对该状态具有更高值的策略相比表现最好?
我开始学习贝尔曼方程,我想到了一个问题。
一项政策π
为什么这行得通?
难道最优策略认为一个状态不是那么好并给他一个低值但与其他对该状态具有更高值的策略相比表现最好?
难道最优策略认为一个状态不是那么好并给他一个低值但与其他对该状态具有更高值的策略相比表现最好?
不,这是不可能的,这是最优策略定义的一部分。
你在问是否有可能构建一个策略π?某些州在哪里sz,v?(sz)>v*(sz),但对于其他一些状态s是的,v?(s是的)<v*(s是的)
一般来说,比较两个任意的策略,这种情况是可能的。但是,没有办法构建一个比任何特定状态的最优策略做得更好的策略。
您唯一可以在策略之间更改的是操作选择。看看贝尔曼方程:
vπ(s)=∑一个π(一个|s)∑r,s'p(r,s'|s,一个)(r+vπ(s'))
你可以看到,代入sz,它的值取决于策略立即做出的决定,然后是下一个状态值的加权和,具体取决于根据策略找到它们的可能性。最优策略在所有状态中最大化该值。
如果有一个策略对状态的最优策略做出不同的决定sz这是唯一的区别(所有其他决定相同,所有其他vπ(s)总和中的值相同,那么它显然与所有州的最优策略一样好或更好,这意味着它是最优策略,并且你最初标记为最优的策略,π*, 不是。这与你的开始陈述相矛盾。
如果,为了获得更高的价值,你说其中之一r+v?(s')值更高(在预期中),那么你可以设置sz=s'并重复这个论点——在某些时候,替代的“非最优”策略必须做出比最优策略更好的决定,以便从其他相同(甚至更差)的值中获得更高的值。最优策略不会被限制选择该动作,实际上必须这样做才能达到最优,所以你会证明最优策略π*实际上不是最优的,这与您的起始陈述相矛盾。
如果对方r+v?(s')预期值较低 -在允许的轨迹中某个点的必要条件,以便使π?非最优的,那么你将证明v?(sz)<v*(sz)这与您的原始陈述相矛盾。
在任何情况下,您构建一个本地无法解释的更好v?(sz)(即下一个状态下的期望值不知何故更好)然后你已经踢了一个罐头,这取决于你可以遵循的贝尔曼方程中的其他值。最终你必须要么接受你宣布的最优策略不是最优的,要么接受π?不可能比它更好,因为它涉及与它不是最优的陈述相矛盾。
这种更正式地处理的想法导致了策略改进定理,在该定理中,您可以无限期地展开状态值之间的依赖关系,并表明可以通过改进每个状态中的策略做出的决策来达到最优策略,直到它不能再改进了。您担心以某种方式可能存在与最优策略不同的局部优于最优策略,这是另一面。