如何更新 POMDP 中的观察概率?

人工智能 强化学习 pomdp 状态空间 条件概率
2021-11-16 14:23:04

如何更新 POMDP(或 HMM)的观察概率,以获得更准确的预测模型?

POMDP 依赖于将观察与状态相匹配的观察概率。这带来了一个问题,因为概率并不完全清楚。但是,我们的想法是随着时间的推移使它们更加准确。最简单的想法是计算出现的观察以及状态并使用朴素贝叶斯估计量。

例如,P(sa,s)是后续状态的概率s达到,给定的行动a和之前的状态s已知:在那种简单的情况下,我可以只计算然后应用朴素贝叶斯估计器。

但是,如果我有一个观察概率P(zs)(在哪里z是观察)取决于一个状态,仅仅计算观察和状态并不是微不足道的,因为我不能说真的达到了一个状态(也许我做了一个观察,但我处于与想要的不同的状态)。我可以做一个观察,希望我处于某种状态。但我不能说我是否在s1或许s2. 我认为观察概率的更新只有在后期才有可能。

那么,估计我的状态的好方法是什么?

0个回答
没有发现任何回复~