有哪些关于用于强化学习的连续状态和动作空间 MDP 的资源?

人工智能 强化学习 参考请求 研究 马尔可夫决策过程
2021-11-15 00:31:26

大多数对 MDP 和强化学习领域的介绍都只关注空间和动作变量是整数(和有限)的领域。通过这种方式,我们可以快速了解价值迭代、Q-Learning 等。

然而,RL 和 MDP 最有趣的应用(例如,飞行直升机)涉及连续状态空间和动作空间。我想超越基本介绍并专注于这些案例,但我不知道如何到达那里。

有哪些关于用于强化学习的连续状态和动作空间 MDP 的资源?我需要了解或研究哪些领域才能深入了解这些案例?

1个回答

在我的论文提案中,有一个关于强化学习的连续状态、动作和时间的小调查

关于书籍,强化学习:最先进的技术似乎与我读过的摘录相当最新。