人工智能 - 为什么贝尔曼方程中有期望符号？ - 吾爱随笔录

为什么贝尔曼方程中有期望符号？

人工智能强化学习价值函数期待贝尔曼方程

2021-10-27 02:41:16

在 Sutton 的书 3.5 章中，价值函数定义为：

有人可以解释一下为什么整个方程后面有期望符号吗？考虑到代理遵循固定策略 $\pi$ ，为什么当未来可能状态的轨迹是固定的时应该有一个期望（或者也许我弄错了，但事实并非如此）。总的来说，如果这里的期望具有对一系列轨迹进行平均的含义，那么当我们想要根据期望值的维基百科定义计算它们的期望值时，这些轨迹是什么以及它们的权重是多少？

2个回答

需要有一个 $E_{\pi}$ 由于两个原因，在无限贴现回报期限内 -

该政策在本质上可能是随机的。也就是说，对于任何给定的状态 $s_t$ 有时 $t$ ，政策 $\pi(s_t)$ 不提供确定性操作 $a$ ，而是为我们提供了可能的下一个状态的分布，即当时的动作 $t$ , $a_t$ 分布为- $a_{t} \sim π (s_{t})$ $a_t \sim \pi(s_t)$
即使政策 $\pi$ 被代理跟随是确定性的，仍然需要对潜在的随机 MDP 环境的行为有一个期望。也就是说，任何动作 $a_t$ ，一般来说，只为我们提供了代理可能的下一个状态的分布。那是， $P (s_{t + 1} = s^{'}) = P_{π} (s^{'} | s_{t}) = \sum_{a \in A} T (s, a, s^{'}) \times P_{π} (a_{t} = a)$ $P(s_{t + 1} = s') = P_{\pi}(s' | s_t) = \sum_{a \in A} T(s,a,s') \times P_{\pi}(a_t = a)$ 这里 $T(s, a, s')$ 是 MDP 的转移函数，上面的方程捕捉了由 1 和 2 引起的随机性。

如您所见，期望与对一组轨迹进行平均无关。然而，这个想法经常被用于价值函数的蒙特卡罗估计。

编辑：正如评论中所指出的，说期望不在轨迹集合上是不正确的。

除了这个答案，我想指出，如果未来的轨迹是固定的（即环境和策略是确定性的，并且代理总是从相同的状态开始），总和的期望（固定奖励) 将简单地对应于实际总和，因为总和是一个常数（即常数的期望就是常数本身），所以期望算子也适用于确定性情况。因此，期望是在所有可能的情况下（无论轨迹是否固定）表达状态值的一般方式。

其它你可能感兴趣的问题

上一篇我应该使用 minimax 还是 alpha-beta 修剪？下一篇模型经过训练后，如何使用它来解决实际问题？