在学习非马尔可夫奖励函数方面做了哪些研究?

人工智能 强化学习 参考请求 奖励函数 马尔可夫属性
2021-11-06 14:59:38

最近,一些工作已经在非马尔可夫决策过程中进行了规划和学习,即具有时间扩展奖励的决策。在这些设置中,仅当满足特定时间逻辑公式(LTL 或 CTL 公式)时才会收到特定奖励。但是,我找不到任何关于学习哪些奖励对应于哪些时间扩展行为的工作。

在我的搜索中,我遇到了 k 阶 MDP(非马尔可夫)。我没有发现关于 k 阶 MDP 的 RL 研究。

0个回答
没有发现任何回复~