任务(Sutton 和 Barto 的 RL 书中的练习 3.13)是表达作为一个函数和.
是动作价值函数,它说明处于某个状态有多好在马尔可夫决策过程(MDP)中,如果在那个状态,我们选择一个动作,在该动作之后,策略决定未来的行动。
假设我们处于某种状态, 我们选择一个动作. 降落在其他状态的概率由. 每个新状态然后有一个状态值函数来确定它的好坏程度如果所有未来的行动都由政策给出, 所以:
这个对吗?
任务(Sutton 和 Barto 的 RL 书中的练习 3.13)是表达作为一个函数和.
是动作价值函数,它说明处于某个状态有多好在马尔可夫决策过程(MDP)中,如果在那个状态,我们选择一个动作,在该动作之后,策略决定未来的行动。
假设我们处于某种状态, 我们选择一个动作. 降落在其他状态的概率由. 每个新状态然后有一个状态值函数来确定它的好坏程度如果所有未来的行动都由政策给出, 所以:
这个对吗?
不完全的。您在时间步错过了奖励.
您正在寻找的定义是(省略下标方便表示)
因为与当时的预期回报有关,并且回报被定义为, 因此在时间也是一个随机变量我们需要对我们过渡到的状态抱有期望。