人工智能 - 如何表达vπ（秒）vπ(s)按照qπ(小号,一)qπ(s,a)? - 吾爱随笔录

这是 Sutton 和 Barto 书中的练习 3.18。

任务是表达 $v_\pi(s)$ 使用 $q_\pi(s,a)$ .

看上图，值 $q_\pi(s,a)$ 在 $s$ 对于每个 $a \in A$ 我们取给了我们价值函数 $s$ 采取行动后 $a$ 然后遵循政策 $\pi$ .

这可能是错误的，但如果

v_{π} (s) = E_{π} [G_{t} | S_{t} = s]

$v_\pi(s) = E_\pi[G_t | S_t = s]$

和

q_{π} (s) = E_{π} [G_{t} | S_{t} = s, A_{t} = a]

$q_\pi(s) = E_\pi[G_t | S_t = s, A_t = a]$

那时不是 $v_\pi(s)$ 只是预期的行动价值函数 $s$ 对所有动作 $a$ 政策规定的 $\pi$ ，即

v_{π} (s) = E_{a \sim π} [q_{π} (s, a) | S_{t} = s, A_{t} = a] = \sum_{a \in A} π (a | s) q_{π} (s, a)

$v_\pi(s) = E_{a \sim \pi}[q_\pi(s,a) | S_t = s, A_t = a] = \sum_{a \in A}\pi(a|s) q_\pi(s,a)$ ?