如何更新 POMDP(或 HMM)的观察概率,以获得更准确的预测模型?
POMDP 依赖于将观察与状态相匹配的观察概率。这带来了一个问题,因为概率并不完全清楚。但是,我们的想法是随着时间的推移使它们更加准确。最简单的想法是计算出现的观察以及状态并使用朴素贝叶斯估计量。
例如,是后续状态的概率达到,给定的行动和之前的状态已知:在那种简单的情况下,我可以只计算然后应用朴素贝叶斯估计器。
但是,如果我有一个观察概率(在哪里是观察)取决于一个状态,仅仅计算观察和状态并不是微不足道的,因为我不能说真的达到了一个状态(也许我做了一个观察,但我处于与想要的不同的状态)。我可以做一个观察,希望我处于某种状态。但我不能说我是否在或许. 我认为观察概率的更新只有在后期才有可能。
那么,估计我的状态的好方法是什么?