环境的随机性是否必然意味着 MDP 的非平稳性?

人工智能 强化学习 马尔可夫决策过程
2021-10-27 16:30:28

随机环境是否也必然是非平稳的?详细地说,考虑一个两态环境(s1s2),有两个动作a1a2. s1, 采取行动a1有一定的概率p1将你转变为s2, 和一个概率1p1让你留在s1. 也有类似的概率a2s1,并采取任一行动s2. 我们也说有奖励r仅当从任一状态发生转换时才给出,否则为 0。这是一个随机环境。但是,这不是在某种意义上是非静止的,在另一种意义上是静止的吗?我认为它是平稳的,因为在特定状态下采取特定行动的预期回报收敛到一个恒定值。但从某种意义上说,它是非平稳的,即在给定状态下采取某种行动所获得的奖励可能在给定时间发生变化。究竟是哪一种?

1个回答

随机环境是否也必然是非平稳的?

不。

随机环境(即具有转换模型的 MDPp(s,rs,a))可以是静止的(即p不随时间变化)或非固定(p随时间变化)。类似地,确定性环境,即概率是1或者0, 也可以是静止的或非静止的。为了强调 MDP 可能是非平稳的,您可以编写p作为时间的函数,即pt(如果奖励函数与转换函数分开,你也可以对它做同样的事情)。

相同的想法适用于随机/确定性策略,它可以是固定的或非固定的。

非平稳环境可能导致非平稳策略(或者如果您需要学习环境模型,可能需要您重新学习环境模型)[ 1 ]。但是,请注意,随机环境(即 MDP)并不一定意味着随机策略(实际上,在某些条件下,已知静止和随机 MDP 具有确定性最优策略 [ 1 ])。

一般来说,如果某物(例如环境、策略、价值函数或奖励函数)是非平稳的,则意味着它会随着时间而变化。这可以是函数或概率分布。因此,概率分布(MDP 的随机部分)可以随时间改变或不改变。如果它随时间变化,那么它会使 MDP 不稳定。

但它是非平稳的,即在给定状态下采取某种行动所获得的奖励可能在给定时间发生变化

非正式地,您可以说获得的经验奖励是非平稳的,因为它会随着时间的推移而变化,这是由于奖励函数、行为策略等的随机性,但动态(转换函数和奖励函数)仍然是固定的,所以环境仍然是静止的。因此,到目前为止,您收集的环境和体验之间存在差异(使用一些行为策略)。