如何表达vπ(秒)vπ(s)按照qπ(小号,一)qπ(s,a)?
人工智能
强化学习
比较
价值函数
萨顿巴托
2021-10-29 16:38:53
1个回答
那时不是只是预期的行动价值函数对所有动作政策规定的,即
?
是的,这是 100% 正确的。
这个或需要更深入的思考没有“技巧”。您已经正确隔离了 MDP 描述中控制关系的关键部分和在那个方向。
请注意,对于确定性策略,与那么关系是
书中的相关练习——表达按照和 MDP 特性 - 更复杂,因为它涉及时间步长。
其它你可能感兴趣的问题