如何表达vπ(秒)vπ(s)按照qπ(小号,一)qπ(s,a)?

人工智能 强化学习 比较 价值函数 萨顿巴托
2021-10-29 16:38:53

在此处输入图像描述

这是 Sutton 和 Barto 书中的练习 3.18。

任务是表达vπ(s)使用qπ(s,a).

看上图,值qπ(s,a)s对于每个aA我们取给了我们价值函数s采取行动后a然后遵循政策π.

这可能是错误的,但如果

vπ(s)=Eπ[Gt|St=s]

qπ(s)=Eπ[Gt|St=s,At=a]

那时不是vπ(s)只是预期的行动价值函数s对所有动作a政策规定的π,即

vπ(s)=Eaπ[qπ(s,a)|St=s,At=a]=aAπ(a|s)qπ(s,a)
?

1个回答

那时不是vπ(s)只是预期的行动价值函数s对所有动作a政策规定的π,即

vπ(s)=Eaπ[qπ(s,a)|St=s,At=a]=aAπ(a|s)qπ(s,a)?

是的,这是 100% 正确的。

这个或需要更深入的思考没有“技巧”。您已经正确隔离了 MDP 描述中控制关系的关键部分vπqπ在那个方向。

请注意,对于确定性策略,与π(s):SA那么关系是

vπ(s)=qπ(s,π(s))

书中的相关练习——表达qπ按照vπ和 MDP 特性 - 更复杂,因为它涉及时间步长。