我们如何表达qπ(小号,一)qπ(s,a)作为一个函数p (s', r | ,一) _p(s′,r|s,a)和vπ(秒)vπ(s)?

人工智能 强化学习 定义 价值函数
2021-11-08 16:01:09

任务(Sutton 和 Barto 的 RL 书中的练习 3.13)是表达qπ(s,a)作为一个函数p(s,r|s,a)vπ(s).

qπ(s,a)是动作价值函数,它说明处于某个状态有多好s在马尔可夫决策过程(MDP)中,如果在那个状态,我们选择一个动作a,在该动作之后,策略π(s,a)决定未来的行动。

假设我们处于某种状态s, 我们选择一个动作a. 降落在其他状态的概率sp(s,r|s,a). 每个新状态s然后有一个状态值函数来确定它的好坏程度s如果所有未来的行动都由政策给出π(s,a), 所以:

qπ(s,a)=sSp(s,r|s,a)vπ(s)

这个对吗?

1个回答

不完全的。您在时间步错过了奖励t+1.

您正在寻找的定义是(省略π下标方便表示)

q(s,a)=E[Rt+1+γv(s)|St=s,At=a]=r,s(r+v(s))p(s,r|s,a).

因为q(s,a)与当时的预期回报有关t,并且回报被定义为Gt=b=0γbRt+b+1, 因此Rt+1在时间也是一个随机变量t我们需要对我们过渡到的状态抱有期望。