人工智能 - 有哪些关于用于强化学习的连续状态和动作空间 MDP 的资源？ - 吾爱随笔录

大多数对 MDP 和强化学习领域的介绍都只关注空间和动作变量是整数（和有限）的领域。通过这种方式，我们可以快速了解价值迭代、Q-Learning 等。

然而，RL 和 MDP 最有趣的应用（例如，飞行直升机）涉及连续状态空间和动作空间。我想超越基本介绍并专注于这些案例，但我不知道如何到达那里。

有哪些关于用于强化学习的连续状态和动作空间 MDP 的资源？我需要了解或研究哪些领域才能深入了解这些案例？