MDP 中是否存在任何关于开始和目标状态的固有假设?

人工智能 强化学习 马尔可夫决策过程 状态空间
2021-11-18 09:33:26

MDP 代表马尔可夫决策过程。它是用于强化学习的 5 长度元组。

MDP=(S,A,T,R,π)

S代表一组状态,也称为状态空间。

A代表一组动作,也称为动作空间。

T是一个概率分布函数

T:S×A×S[0,1]

R是奖励函数

R:S×AR

π是一个策略函数

π:S×A[0,1]

这个问题仅限于连续空间,即状态和动作空间是连续的。还有随机策略函数。并且只考虑基本的 MDP 而不是它的味道。

一般来说,强化学习中的 MDP 主要应用于游戏。大多数游戏都有一定的开始状态和目标状态。

是否有任何理由不在 MDP 中指定开始和目标状态,就像在有限自动机中一样?

或者 MDP 是否具有隐含的开始和目标状态(例如来自奖励函数的值)?

或者,MDP 的定义是否与开始和目标状态无关?如果是,我可以把 MDP 想象成一个没有特定目标的状态空间搜索问题吗?

1个回答

是否有任何理由不在 MDP 中指定开始和目标状态,就像在有限自动机中一样?

通常,MDP 具有起始状态分布。这可能是一个单一的状态,但不一定是。在非偶发问题中,您可能需要考虑任何给定策略下的长期状态分布,尽管使用简单的开始分布和长期分布的遍历性假设是很常见的。

一般来说,MDP没有目标状态。尽管使用代理的动作来实现某些理想的最终状态,例如赢得游戏或完成谜题,是一种非常常见的设计,但对此没有要求。更一般的要求是在每个时间步最大化一些奖励的总和 - 通常是奖励的折扣总和或平均奖励。

或者 MDP 是否具有隐含的开始和目标状态(例如来自奖励函数的值)?

不,尽管如果您正在设计一个 MDP 来对某些环境进行建模,并且它具有目标状态,那么您通常会考虑目标状态。同样,您通常会选择起始状态分布作为问题定义的一部分。

或者,MDP 的定义是否与开始和目标状态无关?

您将需要至少选择一个开始状态的分布来实际使用 MDP。

不需要设置目标状态。你是否这样做取决于你正在建模的问题。

如果是,我可以把 MDP 想象成一个没有特定目标的状态空间搜索问题吗?

可能有也可能没有目标状态。通常,您不能将 RL 框架为状态空间搜索。RL 控制问题的一般解决方案是最大化奖励的聚合(总和或均值)。不需要从任何单一州获得该奖励。

您通常可以将 RL 控制方法视为策略空间搜索。Q-learning 等基于价值的方法间接执行策略搜索,而 REINFORCE 等策略梯度方法对策略函数进行建模并对其进行优化。

相反的情况,如果您确实有状态空间搜索问题,例如某种形式的组合优化,那么您可以将其视为 RL 问题。然而,RL 通常是一种非常低效的搜索方式,因为它会通过反复试验来执行策略搜索,以找到从起始状态构建所需状态的策略。对于图形搜索和组合优化,存在比通过反复试验学习将任意开始状态转换为目标状态所需的全部一系列动作更好的 AI 工具。


在旁边:

R是奖励函数

R:S×AR

这不一般。这看起来更像是一个预期的奖励函数。您可以使用预期奖励函数推导出贝尔曼方程,因此使用预期奖励函数不会干扰大多数 RL 理论。但是,个人奖励可能基于下一个状态,并且可能是随机的,因此您列出的奖励函数并未完全定义 MDP - 在考虑 MDP 的质量(例如会影响代理学习效率的方差)时,差异很重要例如。