POMDP 的观察函数是否总是加起来为 1?

人工智能 强化学习 马尔可夫决策过程 pomdp
2021-10-20 08:04:50

我正在阅读Michael L. Littman 撰写的关于部分可观察马尔可夫决策过程的教程(第 120 页),zZO(a,s,z)=1, 在哪里a是动作,s下一个可能的状态和z某个/特定的观察。

观察功能怎么来的O(a,s,z)加起来1在 POMDP 中?

1个回答

O(a,s,z)=P(za,s)是一个条件概率分布,所以它总是需要总结为1. 你应该解释O(a,s,z)作为观察概率z,假设代理采取了行动a并降落在州s.

O(a,s,z)因此不是联合分布,即使符号O(a,s,z)可能会建议它。在这种情况下,O(a,s,z)只是意味着O是一个函数a,zs.

如果您想查看条件概率分布总和为 1 的证明,请查看这篇文章