我正在阅读Michael L. Littman 撰写的关于部分可观察马尔可夫决策过程的教程(第 120 页),∑z∈ZO(a,s′,z)=1∑z∈ZO(a,s′,z)=1, 在哪里aa是动作,s′s′下一个可能的状态和zz某个/特定的观察。
观察功能怎么来的O(a,s′,z)O(a,s′,z)加起来11在 POMDP 中?
O(a,s′,z)=P(z∣a,s′)O(a,s′,z)=P(z∣a,s′)是一个条件概率分布,所以它总是需要总结为11. 你应该解释O(a,s′,z)O(a,s′,z)作为观察概率zz,假设代理采取了行动aa并降落在州s′s′.
O(a,s′,z)O(a,s′,z)因此不是联合分布,即使符号O(a,s′,z)O(a,s′,z)可能会建议它。在这种情况下,O(a,s′,z)O(a,s′,z)只是意味着OO是一个函数aa,zz和s′s′.
如果您想查看条件概率分布总和为 1 的证明,请查看这篇文章。