大多数对 MDP 和强化学习领域的介绍都只关注空间和动作变量是整数(和有限)的领域。通过这种方式,我们可以快速了解价值迭代、Q-Learning 等。
然而,RL 和 MDP 最有趣的应用(例如,飞行直升机)涉及连续状态空间和动作空间。我想超越基本介绍并专注于这些案例,但我不知道如何到达那里。
有哪些关于用于强化学习的连续状态和动作空间 MDP 的资源?我需要了解或研究哪些领域才能深入了解这些案例?
大多数对 MDP 和强化学习领域的介绍都只关注空间和动作变量是整数(和有限)的领域。通过这种方式,我们可以快速了解价值迭代、Q-Learning 等。
然而,RL 和 MDP 最有趣的应用(例如,飞行直升机)涉及连续状态空间和动作空间。我想超越基本介绍并专注于这些案例,但我不知道如何到达那里。
有哪些关于用于强化学习的连续状态和动作空间 MDP 的资源?我需要了解或研究哪些领域才能深入了解这些案例?
在我的论文提案中,有一个关于强化学习的连续状态、动作和时间的小调查。
关于书籍,强化学习:最先进的技术似乎与我读过的摘录相当最新。