MDP 代表马尔可夫决策过程。它是用于强化学习的 5 长度元组。
代表一组状态,也称为状态空间。
代表一组动作,也称为动作空间。
是一个概率分布函数
是奖励函数
是一个策略函数
这个问题仅限于连续空间,即状态和动作空间是连续的。还有随机策略函数。并且只考虑基本的 MDP 而不是它的味道。
一般来说,强化学习中的 MDP 主要应用于游戏。大多数游戏都有一定的开始状态和目标状态。
是否有任何理由不在 MDP 中指定开始和目标状态,就像在有限自动机中一样?
或者 MDP 是否具有隐含的开始和目标状态(例如来自奖励函数的值)?
或者,MDP 的定义是否与开始和目标状态无关?如果是,我可以把 MDP 想象成一个没有特定目标的状态空间搜索问题吗?