为什么贝尔曼方程中有期望符号?

人工智能 强化学习 价值函数 期待 贝尔曼方程
2021-10-27 02:41:16

在 Sutton 的书 3.5 章中,价值函数定义为:

在此处输入图像描述

有人可以解释一下为什么整个方程后面有期望符号吗?考虑到代理遵循固定策略π,为什么当未来可能状态的轨迹是固定的时应该有一个期望(或者也许我弄错了,但事实并非如此)。总的来说,如果这里的期望具有对一系列轨迹进行平均的含义,那么当我们想要根据期望值的维基百科定义计算它们的期望值时,这些轨迹是什么以及它们的权重是多少?

2个回答

需要有一个Eπ由于两个原因,在无限贴现回报期限内 -

  1. 该政策在本质上可能是随机的。也就是说,对于任何给定的状态st有时t, 政策π(st)不提供确定性操作a,而是为我们提供了可能的下一个状态的分布,即当时的动作t,at分布为-
    atπ(st)
  2. 即使政策π被代理跟随是确定性的,仍然需要对潜在的随机 MDP 环境的行为有一个期望。也就是说,任何动作at,一般来说,只为我们提供了代理可能的下一个状态的分布。那是,
    P(st+1=s)=Pπ(s|st)=aAT(s,a,s)×Pπ(at=a)
    这里T(s,a,s)是 MDP 的转移函数,上面的方程捕捉了由 1 和 2 引起的随机性。

如您所见,期望与对一组轨迹进行平均无关。然而,这个想法经常被用于价值函数的蒙特卡罗估计。

编辑:正如评论中所指出的,说期望不在轨迹集合上是不正确的。

除了这个答案,我想指出,如果未来的轨迹是固定的(即环境和策略是确定性的,并且代理总是从相同的状态开始),总和的期望(固定奖励) 将简单地对应于实际总和,因为总和是一个常数(即常数的期望就是常数本身),所以期望算子也适用于确定性情况。因此,期望是在所有可能的情况下(无论轨迹是否固定)表达状态值的一般方式。