人工智能 - 什么是马尔可夫决策过程 (MDP) 中的遍历性？ - 吾爱随笔录

什么是马尔可夫决策过程 (MDP) 中的遍历性？

人工智能强化学习定义马尔可夫决策过程马尔可夫链遍历性

2021-10-19 01:58:05

我已经阅读了Moldovan的安全 RL 论文（第 3.2 节）和Sutton 的 RL 书（第 10.3 章，第 2 段）中有关遍历性的概念。

第一个说“对 MDP 的信念是遍历的，当且仅当任何状态都可以通过某种策略从任何其他状态到达，或者等效地，当且仅当”：

\forall s, s^{'}, \exists π_{r} such that E_{β} E_{s, π_{r}}^{P} [B_{s^{'}}] = 1

$\forall s, s', \exists \pi_r \text{ such that } E_\beta E_{s, \pi_r}^P [B_{s'}] = 1$

在哪里：

$B_{s'}$ 是系统达到状态的事件的指示随机变量 $s'$ 至少一次，即 $B_{s'} = 1 \{ \exists t < \infty \text{ such that } s_t = s'\}$
$E_\beta E_{s, \pi_r}^P[B_{s'}]$ 是预期值 $B_{s'}$ , 在对 MDP 动力学的信念下 $\beta$ ，政策 $\pi$ 和过渡措施 $P$ .

第二个说“ $\mu_\pi$ 是稳态分布，假设存在于任何 $\pi$ 并且独立于 $s_0$ . 这种关于 MDP 的假设被称为遍历性。”。他们定义 $\mu_\pi$ 作为：

μ_{π} (s) ≐ lim_{t \to \infty} Pr {s_{t} = s | a_{0 : t - 1} \sim π}

$\mu_\pi(s) \doteq \lim_{t \to \infty} \Pr\{s_t=s \vert a_{0:t-1} \sim \pi\}$

即，有机会登陆状态 $s$ 根据策略执行动作 $\pi$ .

我注意到第一个定义要求每个人至少应该存在一个策略 $(s, s')$ MDP 遍历的对然而，第二个定义要求所有策略最终访问 MDP 中的所有状态，这似乎是一个更严格的定义。

然后，我遇到了马尔可夫链的遍历性定义：

一个状态 $i$ 如果它是非周期性的并且是正循环的，则称它是遍历的。换句话说，一个状态 $i$ 如果它是循环的，它是遍历的，有一个周期 $1$ ，并且具有有限的平均复发时间。如果不可约马尔可夫链中的所有状态都是遍历的，则称该链是遍历的。

考虑到 MDP 中的遍历性定义源自马尔可夫链中的定义，这使我相信第二个定义（更严格的定义）是最合适的定义。由于 MDP 基本上是一个带有选择（动作）的马尔可夫链，遍历性应该意味着独立于所采取的动作，所有状态都被访问，即所有策略都确保遍历性。

我假设这些是不同的定义是否正确？两者还能称为“遍历性”吗？如果不是，哪一个是最正确的？

1个回答

简而言之，保证每个确定性平稳策略存在唯一平稳状态分布的 MDP 的相关类别是单链 MDP（Puterman 1994，第 8.3 节）。然而，单链假设并不意味着每个策略最终都会访问每个状态。我相信您的困惑源于 unichain 和更受约束的遍历 MDP 之间的差异。

Puterman 定义 MDP 是（在以下我的重点中）：

如果对应于每个确定性固定策略的状态转移矩阵由单个循环类组成，则循环或遍历，并且

unichain，如果每个确定性平稳策略对应的状态转移矩阵是 unichain，即它由单个循环类和可能为空的瞬态状态集组成。

在进一步展开之前，让我们先回顾一下马尔可夫链中的循环和瞬态状态。以下定义可在 Puterman 的附录 A.2 中找到。对于一个状态 $s$ , 关联两个随机变量 $\nu_s$ 和 $\tau_s$ 表示访问次数和第一次访问的时间（或者如果链开始于第一次返回 $s$ ) 陈述 $s$ . 一个状态 $s$ 是

循环的（有时也称为遍历的），如果 $P_s(\tau_s < \infty) = 1$ ，即状态最终被访问（或返回），并且
瞬态，如果 $\mathbb{E}[\tau_s] = \infty$ 和 $P_s(\tau_s < \infty) < 1$ .

这也是事实 $s$ 是循环的当且仅当 $\mathbb{E}[\nu_s] = \infty$ ，即它被无限频繁地访问，并且 $s$ 是短暂的当且仅当 $\mathbb{E}[\nu_s] < \infty$ ，即，它仅被有限地经常访问（因此在某个有限时间之后再也不会被访问）。

所以现在让我们回到上面的两种类型的 MDP。考虑一个任意确定性的平稳策略 $\pi$ 映射任何状态 $s$ 对一个动作 $a = \pi(s)$ . 如果 MDP 是遍历的，则平稳分布 $\mu_\pi(s)$ 存在并且是唯一的，因为任何策略诱导的状态马尔可夫链都有一个循环类（无论在哪个状态 $s_0$ 链开始，达到相同的平稳分布）。有一类循环状态，即所有状态都是循环的，因此任何 $s$ 经常被无限访问并且 $\mu_\pi(s) > 0$ .

现在，如果 MDP 是单链的，那么再一次是平稳分布 $\mu_\pi(s)$ 存在并且是唯一的，因为任何策略诱导的状态马尔可夫链都有一个循环类。但是，重要的是，可能存在一项政策 $\pi$ 其中，诱导马尔可夫链中的瞬态集合不为空。因为任何瞬态 $s$ 在（无限视界）平稳分布中，只会被访问有限次 $\mu_\pi(s)=0$ ！

所以确实，如果 MDP 是更严格的遍历类型，那么每个策略最终都会访问每个状态。然而，对于单链 MDP 来说，情况并非如此。

最后一点：如果生成的状态马尔可夫链是遍历的（即具有唯一的平稳分布），一些作者将策略定义为遍历的（例如，Kearns & Singh, 2002）。unichain MDP 是一种 MDP，其中每个策略都是遍历的。

参考：

普特曼，ML (1994)。马尔可夫决策过程：离散随机动态规划。

卡恩斯和辛格。多项式时间内的近似最优强化学习。机器学习, 49, 209–232, 2002

其它你可能感兴趣的问题

上一篇什么时候不应该在图层中使用偏差？下一篇我应该在 REINFORCE 中使用哪个损失函数，标签是什么？