马尔可夫决策过程能否依赖于过去?

人工智能 定义 马尔可夫链
2021-10-24 16:24:27

据我所知,MDP 是独立于过去的。但是定义说,相同的策略应该始终根据状态采取相同的行动。

如果我将我的状态定义为当前的“主要”状态 + 先前的决定会怎样?

例如,在扑克中,“主要”状态将是我的牌和底池 + 有关游戏的所有先前信息。

这仍然是MDP吗?

2个回答

从您的描述中并不完全清楚,但听起来您可能正在使用Additive Markov Chain之类的东西。

MPD 不独立于过去,但从当前状态开始的未来动作独立于过去,即给定所有先前状态的下一个状态的概率与给先前状态的下一个状态的概率相同

任何由完整历史组成的状态表示都是 MDP,因为查看历史(以您的状态编码)与查看以前的状态不同,因此马尔可夫属性成立。这里的问题是您将有大量的状态,因为您需要在状态中编码任何可能的轨迹,而且大多数时候这是不可行的。

如果我将我的状态定义为当前的“主要”状态 + 先前的决定会怎样?

例如,在扑克中,“主要”状态将是我的牌和底池 + 有关游戏的所有先前信息。

是的,这是一个马尔可夫决策问题