做什么v (小号t + 1)v(St+1)在最优状态-动作价值函数中是什么意思?

人工智能 强化学习 最优策略
2021-10-29 06:08:56

在 Sutton & Barto 的Reinforcement Learning: An Introduction page 63 中,作者在最优动作值函数的表达式中介绍了最优状态值函数,如下所示:q(s,a)=E[Rt+1+γv(St+1)|St=s,At=a],sS,aA.

我不明白什么v(St+1)可能意味着因为v是一个映射,在最优策略下π,从状态到从这些状态开始并在不同时间步长的预期回报的数字。

我相信作者使用相同的符号来表示状态值函数v验证v(s)=E[Gt|St=s],sS和随机变量E[Gt+1|St+1]但我不确定。

1个回答

我不确定它是否是标准符号,但 Sutton & Barto 使用了一个约定,即随机变量的函数是一个新的随机变量,它使用该函数将旧变量的值映射到新变量的值,并且不影响概率分布(除了函数可能是单向的,因此概率可以有效地结合,例如,如果有几个状态v(s)=5)。

鉴于此约定v(St+1)是可能状态在时间步的最优状态值函数的随机变量t+1. 也就是说,它具有相同的概率密度,基于策略和状态转换规则,如St+1,但具有相关的值v(s)对于每一个可能St+1.

实际分布情况v(St+1)将根据评估它的上下文中的条件而有所不同。

如果你解决第一个方程中的期望,它的条件是StAt

q(s,a)=E[Rt+1+γv(St+1)|St=s,At=a]

=r,sp(r,s|s,a)(r+γv(s))

. . . 表达行动价值q(s,a)在状态转移规则、即时奖励函数和状态值方面v(s)领先半步。也就是说,在下一个状态,但在采取下一个(最佳选择)动作之前。