我已经阅读了Moldovan的安全 RL 论文(第 3.2 节)和Sutton 的 RL 书(第 10.3 章,第 2 段)中有关遍历性的概念。
第一个说“对 MDP 的信念是遍历的,当且仅当任何状态都可以通过某种策略从任何其他状态到达,或者等效地,当且仅当”:
在哪里:
- 是系统达到状态的事件的指示随机变量至少一次,即
- 是预期值, 在对 MDP 动力学的信念下, 政策和过渡措施.
第二个说“是稳态分布,假设存在于任何并且独立于. 这种关于 MDP 的假设被称为遍历性。”。他们定义作为:
- 即,有机会登陆状态根据策略执行动作.
我注意到第一个定义要求每个人至少应该存在一个策略MDP 遍历的对 然而,第二个定义要求所有策略最终访问 MDP 中的所有状态,这似乎是一个更严格的定义。
然后,我遇到了马尔可夫链的遍历性定义:
一个状态如果它是非周期性的并且是正循环的,则称它是遍历的。换句话说,一个状态如果它是循环的,它是遍历的,有一个周期,并且具有有限的平均复发时间。如果不可约马尔可夫链中的所有状态都是遍历的,则称该链是遍历的。
考虑到 MDP 中的遍历性定义源自马尔可夫链中的定义,这使我相信第二个定义(更严格的定义)是最合适的定义。由于 MDP 基本上是一个带有选择(动作)的马尔可夫链,遍历性应该意味着独立于所采取的动作,所有状态都被访问,即所有策略都确保遍历性。
我假设这些是不同的定义是否正确?两者还能称为“遍历性”吗?如果不是,哪一个是最正确的?