人工智能 - 我们如何表达qπ(小号,一)qπ(s,a)作为一个函数p (s', r | ,一) _p(s′,r|s,a)和vπ（秒）vπ(s)? - 吾爱随笔录

任务（Sutton 和 Barto 的 RL 书中的练习 3.13）是表达 $q_\pi(s,a)$ 作为一个函数 $p(s',r|s,a)$ 和 $v_\pi(s)$ .

$q_\pi(s,a)$ 是动作价值函数，它说明处于某个状态有多好 $s$ 在马尔可夫决策过程（MDP）中，如果在那个状态，我们选择一个动作 $a$ ，在该动作之后，策略 $\pi(s,a)$ 决定未来的行动。

假设我们处于某种状态 $s$ , 我们选择一个动作 $a$ . 降落在其他状态的概率 $s'$ 由 $p(s',r|s,a)$ . 每个新状态 $s'$ 然后有一个状态值函数来确定它的好坏程度 $s'$ 如果所有未来的行动都由政策给出 $\pi(s',a)$ ，所以：

q_{π} (s, a) = \sum_{s^{'} \in S} p (s^{'}, r | s, a) v_{π} (s^{'})

$q_\pi(s,a) = \sum_{s' \in S} p(s',r|s,a) v_\pi(s')$

这个对吗？