我认为区分更多是出于概念上的原因,这具有实际意义,所以让我回顾一下随机和部分可观察环境的通常定义。
随机环境可以建模为马尔可夫决策过程 (MDP) 或部分可观察MDP (POMDP)。所以,一个环境可以是
随机性是指环境的动态,更具体地说,是指在采取行动后环境如何随机地从一种状态移动到另一种状态(基本上是具有行动和奖励的马尔可夫链)。换句话说,在随机环境中,我们有分布p(s′∣s,a)(或者,在某些情况下,奖励也包括在内p(s′,r∣s,a))。如果p(s′∣s,a)给出了一个概率1到其中一个州和0对所有其他国家来说,我们将拥有一个确定性的环境。
部分可观察性是指我们不知道智能体处于哪个状态这一事实,因此我们可以考虑拥有或维持状态的概率分布,例如b(s). 因此,在 POMDP 的情况下,我们不仅不确定下一个状态是什么s′可能是在我们采取之后a在我们目前的状态s,但我们甚至不确定是什么s目前是。
因此,差异是为了我们可以处理关于环境不同部分的不确定性(动态和状态的实际知识)。想想一个没有全貌的盲人(我希望这不会冒犯任何人),想想一个视力好的人。看得清楚的人仍然不确定明天(也许这不是一个很好的例子,因为您可以争辩说这也是因为看得清楚的人不知道完整的状态,但我希望这个给你直觉)。
当然,这具有实际意义。例如,您似乎无法将用于 MDP 的解决方案直接应用于 POMDP。更准确地说,对于 MDP,如果您了解策略π(a∣s),即给定状态下动作的概率分布,如果你不知道你所处的状态,那么这个策略是毫无用处的。
为了处理智能体所处状态的不确定性,在 POMDP 中,我们还有观察的概念,即智能体从环境中收集的关于当前状态的信息(例如,在盲人的例子中) ,观察将是声音,触摸等),以更新其对当前状态的信念。在实践中,一些人试图将 MDP 的常用 RL 算法应用于 POMDP(参见例如DQN或this),但他们做了一些近似,结果证明是有用且成功的。
如果差异仍然不明显,请看一下可用于将信念状态与环境的转换模型(动力学)联系起来的方程
b′(s′)Next belief state=αP(o∣s′)Probability of observation o given s′∑P(s′∣s,a)Transitionmodelb(s)Previous belief state
因此,在 POMDP 中,如上所述,理论上,策略不能依赖于s, 但需要依赖b(s),信念状态,即状态的概率分布。
如果这个答案仍然不能令人满意,尽管您可能已经这样做了,您应该阅读AIMA 书(第 3 版)的2.3.2 任务环境属性部分。他们对随机和部分可观察环境的描述似乎与我在这里写的一致,但也许他们对随机环境的描述并不完全清楚,因为他们说
如果环境的下一个状态完全由当前状态和代理执行的动作决定,那么我们说环境是确定性的;否则,它是随机的
不清楚的部分完全确定了。他们应该说确定性确定(您可以将其用于说唱歌曲)。
然而,他们后来通过说
我们对“随机”一词的使用通常意味着结果的不确定性是用概率来量化的
除此之外,他们称环境为随机或部分可观察的不确定。这样做是有道理的,因为不确定性会使问题变得更加困难,因此我们可以区分某些环境和不确定环境。
老实说,我不知道是否有某种数学形式不能区分随机或部分可观察的环境,但我不确定它有多大用处。