人工智能 - POMDP 的观察函数是否总是加起来为 1？ - 吾爱随笔录

人工智能强化学习马尔可夫决策过程 pomdp

2021-10-20 08:04:50

我正在阅读Michael L. Littman 撰写的关于部分可观察马尔可夫决策过程的教程（第 120 页）， $\sum_{z \in Z}O(a, s',z) =1$ ，在哪里 $a$ 是动作， $s'$ 下一个可能的状态和 $z$ 某个/特定的观察。

观察功能怎么来的 $O(a, s', z)$ 加起来 $1$ 在 POMDP 中？

1个回答

$O(a, s', z) = \mathbb{P}(z \mid a, s')$ 是一个条件概率分布，所以它总是需要总结为 $1$ . 你应该解释 $O(a, s', z)$ 作为观察概率 $z$ ，假设代理采取了行动 $a$ 并降落在州 $s'$ .

$O(a, s', z)$ 因此不是联合分布，即使符号 $O(a, s', z)$ 可能会建议它。在这种情况下， $O(a, s', z)$ 只是意味着 $O$ 是一个函数 $a$ , $z$ 和 $s'$ .

如果您想查看条件概率分布总和为 1 的证明，请查看这篇文章。

其它你可能感兴趣的问题