在花了一些时间阅读 POMDP 之后,我仍然很难理解基于网格的解决方案是如何工作的。
我了解有限视野蛮力解决方案,您可以在其中拥有当前的信念分布,枚举给定深度的每个可能的动作/观察组合集合,并找到预期的回报。
我试图阅读一些关于基于网格的近似的资料,例如,这些幻灯片描述了基于网格的方法。
但是,我不清楚到底发生了什么。我不明白如何实际计算价值函数。在你采取行动之后,你如何更新你的信念状态以与网格保持一致?基于网格的解决方案是否简单地减少了信念状态集?这如何降低问题的复杂性?
我没有看到这如何减少动作的数量,有限视野解决方案需要考虑的观察组合。