非马尔可夫环境也可以是确定性的吗?

人工智能 强化学习 定义 环境 马尔可夫属性
2021-11-18 12:04:58

我熟悉的确定性环境的定义如下:

代理的下一个状态仅取决于当前状态和代理选择的动作。

通过排除,其他一切都将是一个随机环境

但是,下一个状态确定性地取决于先前状态的历史和所选择的动作的环境呢?这样的环境是否也被认为是确定性的?它们是否非常罕见,因此只是被忽略了,还是我应该将它们包含在我对确定性环境的工作定义中?

2个回答

马尔可夫环境与确定性或随机性无关。“仅取决于当前状态和您的操作”并不意味着您知道会发生什么(确定性)。

我们可以有马尔可夫 + 确定性、马尔可夫 + 随机、非马尔可夫 + 确定性和非马尔可夫 + 随机。

您拥有的定义不是确定性的定义。它是马尔可夫性质的定义。

请参阅维基百科。

如果过程的未来状态的条件概率分布(以过去和现在的值为条件)仅取决于当前状态,则随机过程具有马尔可夫性质;也就是说,鉴于现在,未来不取决于过去具有此性质的过程称为马尔可夫过程或马尔可夫过程。最著名的马尔可夫过程是马尔可夫链。布朗运动是另一个著名的马尔可夫过程。

马尔可夫性质主要是在随机问题中假设的。布朗运动是墨水分子在水中的运动,用于模拟股票价格的运动,这是随机的。

确定性意味着当您处于相同状态并选择相同操作时,您的下一个状态将始终相同。

随机意味着即使您处于相同的状态并选择相同的动作,您的下一个状态也可能与上一次不同。

示例)您掷硬币并掷骰子。每次你掷骰子,你都会得到同样多的便士。如果硬币正面,您有机会下次掷骰子两次。您的状态可以是(到目前为止您收集的钱,前一次的硬币头/尾)。

在这个问题中,你的下一个状态不会受到过去的影响。你唯一需要知道的是当前状态,你得到的钱和头或尾。它有一个马尔可夫过程/环境。然而,它仍然是随机的,因为你不知道下一个状态会是什么。

取决于系统状态中提供的信息。理论上,历史可以是状态的一个元素,在这种情况下,根据您提供的定义:

代理的下一个状态仅取决于当前状态和代理选择的动作。

它是一个确定性代理。

另一方面,假设状态没有关于历史的信息,在这种情况下,在每一点你都只知道它的当前状态,而对它之前的位置一无所知。在这种情况下,它是一个随机环境,因为您可以定义一个在可能的下一个状态中熵/不确定性大于 0 的分布。