在 Sutton & Barto 的Reinforcement Learning: An Introduction page 63 中,作者在最优动作值函数的表达式中介绍了最优状态值函数,如下所示:.
我不明白什么可能意味着因为是一个映射,在最优策略下,从状态到从这些状态开始并在不同时间步长的预期回报的数字。
我相信作者使用相同的符号来表示状态值函数验证和随机变量但我不确定。
在 Sutton & Barto 的Reinforcement Learning: An Introduction page 63 中,作者在最优动作值函数的表达式中介绍了最优状态值函数,如下所示:.
我不明白什么可能意味着因为是一个映射,在最优策略下,从状态到从这些状态开始并在不同时间步长的预期回报的数字。
我相信作者使用相同的符号来表示状态值函数验证和随机变量但我不确定。
我不确定它是否是标准符号,但 Sutton & Barto 使用了一个约定,即随机变量的函数是一个新的随机变量,它使用该函数将旧变量的值映射到新变量的值,并且不影响概率分布(除了函数可能是单向的,因此概率可以有效地结合,例如,如果有几个状态)。
鉴于此约定是可能状态在时间步的最优状态值函数的随机变量. 也就是说,它具有相同的概率密度,基于策略和状态转换规则,如,但具有相关的值对于每一个可能.
实际分布情况将根据评估它的上下文中的条件而有所不同。
如果你解决第一个方程中的期望,它的条件是和:
. . . 表达行动价值在状态转移规则、即时奖励函数和状态值方面领先半步。也就是说,在下一个状态,但在采取下一个(最佳选择)动作之前。