最近,一些工作已经在非马尔可夫决策过程中进行了规划和学习,即具有时间扩展奖励的决策。在这些设置中,仅当满足特定时间逻辑公式(LTL 或 CTL 公式)时才会收到特定奖励。但是,我找不到任何关于学习哪些奖励对应于哪些时间扩展行为的工作。
在我的搜索中,我遇到了 k 阶 MDP(非马尔可夫)。我没有发现关于 k 阶 MDP 的 RL 研究。
最近,一些工作已经在非马尔可夫决策过程中进行了规划和学习,即具有时间扩展奖励的决策。在这些设置中,仅当满足特定时间逻辑公式(LTL 或 CTL 公式)时才会收到特定奖励。但是,我找不到任何关于学习哪些奖励对应于哪些时间扩展行为的工作。
在我的搜索中,我遇到了 k 阶 MDP(非马尔可夫)。我没有发现关于 k 阶 MDP 的 RL 研究。