迷宫中的马尔可夫性质解决强化学习中的问题

人工智能 机器学习 强化学习 马尔可夫决策过程
2021-10-20 05:04:21

根据定义,RL 中的每个状态都具有马尔可夫属性,这意味着未来状态仅取决于当前状态,而不取决于过去状态。

但是,我看到在某些情况下,我们可以将状态定义为迄今为止所采取的观察和行动的历史,例如st=ht=o1a1ot1at1ot. 我认为迷宫解决可能是这种情况,因为当前状态或迷宫中的当前位置显然取决于代理到过哪些地方以及代理到目前为止采取了哪些方式。

那么似乎未来的状态自然地依赖于过去的状态和过去的行为。我错过了什么?

1个回答

嗨,Hunnam,欢迎来到我们的社区!

根据定义,RL 中的每个状态都具有马尔可夫属性,这意味着未来状态仅取决于当前状态,而不取决于过去状态。

不,这并不完全正确。
我们可以使用 RL 来解决马尔可夫性质的问题,因为当前状态是对未来的充分统计。换句话说,状态编码了未来状态的分布。

请注意,状态不一定是观察结果。正如您在下一段中指出的那样:

但是,我看到在某些情况下,我们可以将状态定义为迄今为止所采取的观察和行动的历史,例如𝑠𝑡=ℎ𝑡=𝑜1𝑎1…𝑜𝑡−1𝑎𝑡−1𝑜𝑡。

有时我们可以使用历史来表示状态。历史可以是一系列观察。

我认为迷宫解决可能是这种情况,因为当前状态或迷宫中的当前位置显然取决于代理到过哪些地方以及代理到目前为止采取了哪些方式。

这在一般情况下是不正确的。给定一个你知道如何解决的迷宫,无论你从哪里开始,你都知道如何到达出口。这是马尔可夫属性。给定当前位置,您有足够的信息来做出确定的最佳决策。

也许需要历史的情况的示例将有助于说明差异。

假设你正在玩 Pong。如果你只取一帧,它不包含足够的信息来知道球的方向。因此,仅凭观察是不够的。如果你记得上一帧怎么办?然后将这两个观察结果结合起来,为您提供做出最佳移动所需的所有信息。