是否有任何算法可以使用强化学习来学习部分可观察马尔可夫决策过程(POMDP)中的最优策略,即当状态没有被完全观察到时?更具体地说,当更新 Q 内核未知时,如何使用贝叶斯规则更新信念状态?
有没有办法在 POMDP 中进行强化学习?
人工智能
强化学习
参考请求
pomdp
2021-10-18 14:50:24
0个回答
没有发现任何回复~