数据挖掘 - 对贝尔曼方程的困惑 - 吾爱随笔录

数据挖掘机器学习强化学习动态规划

2021-10-07 02:45:06

在某些资源中，贝尔曼方程如下所示：

$v_{\pi}(s) = \sum\limits_{a}\pi(a|s)\sum\limits_{s',r}p(s',r|s,a)\big[r+\gamma v_{\pi}(s')\big]$

我感到困惑的是， $\pi$ 和 $p$ 右手边的零件。

由于概率部分 - $p(s',r|s,a)$ - 表示处于下一个状态的概率 ( $s'$ )，并且由于处于下一个状态 ( $s'$ ) 必须通过执行特定操作来完成， $p$ 部分还包括在其中采取特定行动的概率。

但是，为什么 $\pi(a|s)$ 写在等式的开头？为什么我们需要它？采取行动的可能性不是在 $p(s',r|s,a)$ 部分已经？

1个回答

$p(s', r | s, a)$ 是到达状态的概率 $s'$ 并获得奖励 $r$ 鉴于环境处于状态 $s$ 代理人采取了行动 $a$ . 因此，这个概率被定义为假设动作 $a$ 被采取。没有被录取的可能 $a$ 包括在那里。

智能体采取行动的概率由策略提供 $\pi$ ，这就是为什么我们需要在等式中使用它。

您可以考虑这两项与总概率定律的相互作用： $p(A)=\sum _{n}p(A\mid B_{n})p(B_{n})$ ，在哪里 $p(B_{n})$ 类似于 $\pi(a|s)$ 和 $p(A\mid B_{n})$ 类似于 $p(s', r | s, a)$ .

其它你可能感兴趣的问题