什么是马尔可夫决策过程 (MDP) 中的遍历性?

人工智能 强化学习 定义 马尔可夫决策过程 马尔可夫链 遍历性
2021-10-19 01:58:05

我已经阅读了Moldovan安全 RL 论文(第 3.2 节)Sutton 的 RL 书(第 10.3 章,第 2 段)中有关遍历性的概念。

第一个说“对 MDP 的信念是遍历的,当且仅当任何状态都可以通过某种策略从任何其他状态到达,或者等效地,当且仅当”:

s,s,πr such that EβEs,πrP[Bs]=1

在哪里:

  • Bs是系统达到状态的事件的指示随机变量s至少一次,即Bs=1{t< such that st=s}
  • EβEs,πrP[Bs]是预期值Bs, 在对 MDP 动力学的信念下β, 政策π和过渡措施P.

第二个说“μπ是稳态分布,假设存在于任何π并且独立于s0. 这种关于 MDP 的假设被称为遍历性。”。他们定义μπ作为:

μπ(s)limtPr{st=s|a0:t1π}

  • 即,有机会登陆状态s根据策略执行动作π.

我注意到第一个定义要求每个人至少应该存在一个策略(s,s)MDP 遍历的对 然而,第二个定义要求所有策略最终访问 MDP 中的所有状态,这似乎是一个更严格的定义。

然后,我遇到了马尔可夫链的遍历性定义:

一个状态i如果它是非周期性的并且是正循环的,则称它是遍历的。换句话说,一个状态i如果它是循环的,它是遍历的,有一个周期1,并且具有有限的平均复发时间。如果不可约马尔可夫链中的所有状态都是遍历的,则称该链是遍历的。

考虑到 MDP 中的遍历性定义源自马尔可夫链中的定义,这使我相信第二个定义(更严格的定义)是最合适的定义。由于 MDP 基本上是一个带有选择(动作)的马尔可夫链,遍历性应该意味着独立于所采取的动作,所有状态都被访问,即所有策略都确保遍历性。

我假设这些是不同的定义是否正确?两者还能称为“遍历性”吗?如果不是,哪一个是最正确的?

1个回答

简而言之,保证每个确定性平稳策略存在唯一平稳状态分布的 MDP 的相关类别是单链 MDP(Puterman 1994,第 8.3 节)。然而,单链假设并不意味着每个策略最终都会访问每个状态。我相信您的困惑源于 unichain 和更受约束的遍历 MDP 之间的差异。

Puterman 定义 MDP 是(在以下我的重点中):

  • 如果对应于每个确定性固定策略的状态转移矩阵由单个循环类组成,则循环或遍历,并且
  • unichain,如果每个确定性平稳策略对应的状态转移矩阵是 unichain,即它由单个循环类和可能为空的瞬态状态集组成

在进一步展开之前,让我们先回顾一下马尔可夫链中的循环和瞬态状态。以下定义可在 Puterman 的附录 A.2 中找到。对于一个状态s, 关联两个随机变量νsτs表示访问次数和第一次访问的时间(或者如果链开始于第一次返回s) 陈述s. 一个状态s

  • 循环的(有时也称为遍历的),如果Ps(τs<)=1,即状态最终被访问(或返回),并且
  • 瞬态,如果E[τs]=Ps(τs<)<1.

这也是事实s是循环的当且仅当E[νs]=,即它被无限频繁地访问,并且s是短暂的当且仅当E[νs]<,即,它仅被有限地经常访问(因此在某个有限时间之后再也不会被访问)。

所以现在让我们回到上面的两种类型的 MDP。考虑一个任意确定性的平稳策略π映射任何状态s对一个动作a=π(s). 如果 MDP 是遍历的,则平稳分布μπ(s)存在并且是唯一的,因为任何策略诱导的状态马尔可夫链都有一个循环类(无论在哪个状态s0链开始,达到相同的平稳分布)。有一类循环状态,即所有状态都是循环的,因此任何s经常被无限访问并且μπ(s)>0.

现在,如果 MDP 是单链的,那么再一次是平稳分布μπ(s)存在并且是唯一的,因为任何策略诱导的状态马尔可夫链都有一个循环类。但是,重要的是,可能存在一项政策π其中,诱导马尔可夫链中的瞬态集合不为空。因为任何瞬态s在(无限视界)平稳分布中,只会被访问有限次μπ(s)=0

所以确实,如果 MDP 是更严格的遍历类型,那么每个策略最终都会访问每个状态。然而,对于单链 MDP 来说,情况并非如此。

最后一点:如果生成的状态马尔可夫链是遍历的(即具有唯一的平稳分布),一些作者将策略定义为遍历的(例如,Kearns & Singh, 2002)。unichain MDP 是一种 MDP,其中每个策略都是遍历的。

参考:

普特曼,ML (1994)。马尔可夫决策过程:离散随机动态规划。

卡恩斯和辛格。多项式时间内的近似最优强化学习。机器学习, 49, 209–232, 2002