随机环境和部分可观察环境之间是否存在根本区别?

人工智能 比较 马尔可夫决策过程 环境 pomdp
2021-11-06 22:25:38

在 AI 文献中,确定性与随机性以及完全可观察与部分可观察通常被认为是环境的两个不同属性。

我对此感到困惑,因为看起来随机的东西可以用隐藏变量来描述。举个例子,以一辆自动驾驶汽车为例(Russel & Norvig 将出租车驾驶描述为随机的)。我可以说环境是随机的,因为我不知道其他司机会做什么。或者,我可以说司机的行为是由我无法观察到的心理状态决定的。

据我所知,随机性总是可以用隐藏变量建模。关于为什么区分是必要的,我提出的唯一论点是贝尔不等式,但我认为人工智能研究人员并没有考虑到这一点。

随机性和部分可观察性之间是否存在一些根本区别,或者这种区别是出于实际原因吗?

2个回答

我认为区分更多是出于概念上的原因,这具有实际意义,所以让我回顾一下随机和部分可观察环境的通常定义。

随机环境可以建模为马尔可夫决策过程 (MDP) 或部分可观察MDP (POMDP)。所以,一个环境可以是

  • 随机的和部分可观察的
  • 随机且完全可观察的

随机性是指环境的动态更具体地说,是指在采取行动后环境如何随机地从一种状态移动到另一种状态(基本上是具有行动和奖励的马尔可夫链)。换句话说,在随机环境中,我们有分布p(ss,a)(或者,在某些情况下,奖励也包括在内p(s,rs,a))。如果p(ss,a)给出了一个概率1到其中一个州和0对所有其他国家来说,我们将拥有一个确定性的环境。

部分可观察性是指我们不知道智能体处于哪个状态这一事实,因此我们可以考虑拥有或维持状态的概率分布,例如b(s). 因此,在 POMDP 的情况下,我们不仅不确定下一个状态是什么s可能是在我们采取之后a在我们目前的状态s,但我们甚至不确定是什么s目前是。

因此,差异是为了我们可以处理关于环境不同部分的不确定性(动态和状态的实际知识)。想想一个没有全貌的盲人(我希望这不会冒犯任何人),想想一个视力好的人。看得清楚的人仍然不确定明天(也许这不是一个很好的例子,因为您可以争辩说这也是因为看得清楚的人不知道完整的状态,但我希望这个给你直觉)。

当然,这具有实际意义例如,您似乎无法将用于 MDP 的解决方案直接应用于 POMDP。更准确地说,对于 MDP,如果您了解策略π(as),即给定状态下动作的概率分布,如果你不知道你所处的状态,那么这个策略是毫无用处的。

为了处理智能体所处状态的不确定性,在 POMDP 中,我们还有观察的概念,即智能体从环境中收集的关于当前状态的信息(例如,在盲人的例子中) ,观察将是声音,触摸等),以更新其对当前状态的信念。在实践中,一些人试图将 MDP 的常用 RL 算法应用于 POMDP(参见例如DQNthis),但他们做了一些近似,结果证明是有用且成功的。

如果差异仍然不明显,请看一下可用于将信念状态与环境的转换模型(动力学)联系起来的方程

b(s)Next belief state=αP(os)Probability of observation o given sP(ss,a)Transitionmodelb(s)Previous belief state

因此,在 POMDP 中,如上所述,理论上,策略不能依赖于s, 但需要依赖b(s),信念状态,即状态的概率分布。

如果这个答案仍然不能令人满意,尽管您可能已经这样做了,您应该阅读AIMA 书(第 3 版)的2.3.2 任务环境属性部分。他们对随机和部分可观察环境的描述似乎与我在这里写的一致,但也许他们对随机环境的描述并不完全清楚,因为他们说

如果环境的下一个状态完全由当前状态和代理执行的动作决定,那么我们说环境是确定性的;否则,它是随机的

不清楚的部分完全确定了。他们应该说确定性确定(您可以将其用于说唱歌曲)。

然而,他们后来通过说

我们对“随机”一词的使用通常意味着结果的不确定性是用概率来量化的

除此之外,他们称环境为随机或部分可观察的不确定这样做是有道理的,因为不确定性会使问题变得更加困难,因此我们可以区分某些环境和不确定环境。

老实说,我不知道是否有某种数学形式不能区分随机或部分可观察的环境,但我不确定它有多大用处。

我想补充几点(不重复nbro的回答已经提供的信息):


  1. 我认为你说对了一半,因为实际上我们可能总是可以将随机性建模为隐藏信息(例如,作为环境的软件实现中的隐藏随机种子)。但是,反过来也行不通。我们不能总是将任何部分可观察的环境建模为随机环境

所以我们这里可能有一个子集关系,而不是等价关系。就个人而言,我经常发现随机环境比部分可观察的环境更“容易”处理。因此,简单地对待它们通常是有益的,而不是不必要地将它们转换为部分可观察环境的通常更困难的格式。


  1. 随机(但完全可观察)的环境中,总是存在最优确定性策略,但在部分可观察的环境中,最优策略可能需要是非确定性的作为推论,我想说这确实意味着两者之间确实存在一些根本区别。

如果环境只是随机的,但完全可观察,非确定性策略可能仍然是最优的,但始终保证至少有一个完全确定性策略;一项政策π那,对于任何状态s分配一个概率π(as)=1只做一个动作a(和0对同一状态的任何其他操作)。有时可以无动于衷(并将概率质量分布在多个动作上),但这并不是最优性的严格要求

在部分可观察的环境中,最优策略可能必须是非确定性的考虑这个环境的“绘图”,由几个正方形组成,代理的当前位置标记为A,并且目标的位置标记为G. 可能的动作是向左或向右移动。

AG

假设这个环境在极端程度上是部分可观察的,即代理永远不知道它在哪里,即所有状态都是别名的(对代理来说看起来是一样的)。然后,确定性策略将始终向左或始终向右,但是,根据代理当前是在目标的左侧还是右侧,这两个确定性策略中的一个永远不会达到目标。并且代理根本无法判断哪个是坏策略。这种环境下的最优策略是简单地向左走0.5, 并以概率向右走0.5. 最终,代理会很幸运并最终处于目标位置。这种环境的部分可观察性质确实使得有必要遵循随机策略。


  1. 部分可观察的环境中,我们经常考虑可能有一些动作可以让我们获得新的信息这些不一定是直接导致任何奖励或未来回报的行为,但实际上只允许我们观察以前无法观察到的事物(因此可能让我们更确定地遵循更好的政策)。这个想法在完全可观察的随机环境中并不存在。

  1. 多智能体环境中(例如,考虑许多纸牌游戏),其他智能体(通常是对手,但也可能是与我们自己的目标相似的智能体)可能会从我们自己的智能体访问不同的信息/观察结果。这意味着,例如通过反事实推理甚至明确的交流,我们可以获得完整的信息,或者至少更新我们对(对我们而言)不可观察的状态部分的信念例如,根据对手在纸牌游戏中的行为,我们可以推断出他们很可能或非常不可能拥有某些牌,否则他们很可能不会以他们的方式行事。这种推理不适用于完全可观察的随机环境。