在 Sutton 的书 3.5 章中,价值函数定义为:
有人可以解释一下为什么整个方程后面有期望符号吗?考虑到代理遵循固定策略,为什么当未来可能状态的轨迹是固定的时应该有一个期望(或者也许我弄错了,但事实并非如此)。总的来说,如果这里的期望具有对一系列轨迹进行平均的含义,那么当我们想要根据期望值的维基百科定义计算它们的期望值时,这些轨迹是什么以及它们的权重是多少?
在 Sutton 的书 3.5 章中,价值函数定义为:
有人可以解释一下为什么整个方程后面有期望符号吗?考虑到代理遵循固定策略,为什么当未来可能状态的轨迹是固定的时应该有一个期望(或者也许我弄错了,但事实并非如此)。总的来说,如果这里的期望具有对一系列轨迹进行平均的含义,那么当我们想要根据期望值的维基百科定义计算它们的期望值时,这些轨迹是什么以及它们的权重是多少?
需要有一个由于两个原因,在无限贴现回报期限内 -
如您所见,期望与对一组轨迹进行平均无关。然而,这个想法经常被用于价值函数的蒙特卡罗估计。
编辑:正如评论中所指出的,说期望不在轨迹集合上是不正确的。
除了这个答案,我想指出,如果未来的轨迹是固定的(即环境和策略是确定性的,并且代理总是从相同的状态开始),总和的期望(固定奖励) 将简单地对应于实际总和,因为总和是一个常数(即常数的期望就是常数本身),所以期望算子也适用于确定性情况。因此,期望是在所有可能的情况下(无论轨迹是否固定)表达状态值的一般方式。