人工智能 - 在学习非马尔可夫奖励函数方面做了哪些研究？ - 吾爱随笔录

人工智能强化学习参考请求奖励函数马尔可夫属性

2021-11-06 14:59:38

最近，一些工作已经在非马尔可夫决策过程中进行了规划和学习，即具有时间扩展奖励的决策。在这些设置中，仅当满足特定时间逻辑公式（LTL 或 CTL 公式）时才会收到特定奖励。但是，我找不到任何关于学习哪些奖励对应于哪些时间扩展行为的工作。

在我的搜索中，我遇到了 k 阶 MDP（非马尔可夫）。我没有发现关于 k 阶 MDP 的 RL 研究。

0个回答

没有发现任何回复~

其它你可能感兴趣的问题