人工智能 - 状态-动作价值函数的这两个定义是等价的吗？ - 吾爱随笔录

状态-动作价值函数的这两个定义是等价的吗？

人工智能强化学习比较价值函数期待贝尔曼方程

2021-11-13 04:44:43

我一直在阅读 Sutton 和 Barto 的教科书，并浏览了 YouTube 上的 David Silvers UCL 讲座视频，并且有一个关于用价值函数编写的状态-动作价值函数的两种形式的等价性的问题。

从教科书的问题 3.13 中，我可以将状态-动作值函数写为

q_{π} (s, a) = \sum_{s^{'}, r} p (s^{'}, r | s, a) (r + γ v_{π} (s^{'})) = E [r + γ v_{π} (s^{'}) | s, a] .

$q_{\pi}(s,a) = \sum_{s',r}p(s',r|s,a)(r + \gamma v_\pi(s')) = \mathbb{E}[r + \gamma v_\pi(s')|s,a]\;.$ 请注意，期望没有考虑到

π

$\pi$ 作为

π

$\pi$ 是采取行动的条件概率

a

$a$ 处于状态

s

$s$ . 现在，在 David Silver 的策略梯度讲座的 Actor-Critic 方法的幻灯片中，他说

E_{π_{θ}} [r + γ v_{π_{θ}} (s^{'}) | s, a] = q_{π_{θ}} (s, a) .

$\mathbb{E}_{\pi_\theta}[r + \gamma v_{\pi_\theta}(s')|s,a] = q_{\pi_\theta}(s,a)\;.$

这两个定义是否等效（在预期中）？

1个回答

状态-动作价值函数的定义总是相同的。

你的定义是正确的，因为 $q_{\pi}(s,a)$ 以 $a$ ，所以你不需要写 $q_{\pi}(s,a)$ 作为一个有条件的期望，取决于 $\pi$ . 实际上，条件期望取自概率分布 $p(s',r|s,a)$ . 但是，您需要下标 $\pi$ 在 $v_\pi(s')$ 因为 $v_\pi(s')$ 被定义为预期回报 $\pi$ 开始于 $s'$ .

如果你不写 $q_{\pi}(s,a)$ 按照 $v_\pi(s')$ ，那么你可以写 $q_{\pi}(s,a)$ 作为依赖于的期望 $\pi$ ，因为在那种情况下， $q_{\pi}(s,a)$ ，被定义为回报的期望（在采取 $a$ 在 $s$ )，这取决于 $\pi$ （参见Sutton & Barto book的公式 3.3 ，第 58 页）。当然，这种写法 $q_{\pi}(s,a)$ 相当于写成 $v_\pi(s')$ .

我认为 David Silver 的符号可能是对符号的滥用。在他的等式中，策略参数化为 $\theta$ ，所以我认为他想强调的是，您将根据 $\pi_\theta$ （演员）。或者，他使用 $\pi_\theta$ 作为下标 $\mathbb{E}_{\pi_\theta}$ 强调未来的回报开始于 $s'$ , 采取行动后 $a$ 在 $s$ , 仍然取决于 $\pi_\theta$ .

其它你可能感兴趣的问题

上一篇MiniMax 属于哪个 RL 算法类别？下一篇为什么 DDPG 是一种离策略的 RL 算法？