究竟什么是部分可观察环境?

人工智能 强化学习 定义 环境 状态空间 pomdp
2021-10-20 05:16:42

我很难理解部分可观察环境的含义。这是我的疑问。

据我了解,环境状态正是决定下一个状态的因素,并为采取的任何特定行动提供奖励。因此,在部分可观察的环境中,您看不到完整的环境状态。

所以,现在,考虑一下国际象棋游戏。在这里,我们是代理,我们的对手是环境。即使在这里,我们也不知道对手会采取什么行动。所以,我们不知道我们将获得的下一个状态和奖励。此外,我们所看到的无法准确定义接下来会发生什么。那么为什么我们称国际象棋为完全可观察的游戏呢?

我觉得我对环境状态的定义或完全可观察、部分可观察的定义是错误的。请纠正我。

3个回答

你的问题是正确的,在 RL 术语中,国际象棋是一个代理是一个玩家,而另一个玩家具有未知状态的国际象棋游戏是一个部分可观察的环境。像这样下棋并不是一个完全可观察的环境。

我没有在上面使用术语“完全可观察的游戏”或“完全可观察的系统”,因为那不是强化学习术语。您也可以阅读类似的“完美信息游戏” - 这意味着游戏状态中没有可能影响最佳游戏的重要隐藏值。这与了解对手的状态不同。

下面是一个反例,表明当你的对手的策略未知时,完美信息博弈不是完全可观察的系统:

  • 井字游戏的最佳游戏会导致强制平局。

  • 让我们从代理的角度定义一个奖励信号,+1 表示胜利,0 表示平局,-1 表示失败。

  • 如果智能体的对手总是以最佳方式发挥,那么 RL 智能体将学会对抗这种最佳方式并以最佳方式发挥。所有的行动选择都会有一个0或-1的预期回报,并且代理在贪婪行动时会选择0个选项。

  • 如果智能体的对手犯了一个让智能体获胜的错误,那么在游戏中会有一个返回 1 的轨迹,或者在错误只是根据随机机会犯的情况下可能是其他一些正值。

  • 因此,博弈中状态的价值取决于对手的策略。

  • 然而,对手的策略是不可观察的——它是未知的,也没有编码到棋盘状态中。

这应该符合您提出问题时的直觉。

那么,为什么在不使用 POMDP 的情况下,许多用于国际象棋等游戏的二人游戏强化代理表现良好?

这是因为在这些环境中的博弈论支持“完美游戏”的概念,并且假设他们的对手也会尝试以最佳方式进行游戏——没有错误——通常会做得很好。博弈论分析导致极小极大理论形式的选择——做出你的对手最不可能利用的选择。

这确实意味着这样的代理人实际上可能在对抗任何给定的对手时表现不佳。例如,他们有可能将一些输球或平局的情况转化为一场胜利,但除非针对这种对手进行训练,否则他们几乎没有能力这样做。此外,这样的打法可能会对其他对手造成很大的风险,它可能涉及在早期的某个阶段打得不够理想。

我在Kaggle 的 Connect X 比赛中观察到了一个相关问题。Connect 4 是一款已解决的游戏,玩家可以强制获胜,而最好的代理人都是完美的玩家。然而,它们并不都是平等的。表现最好的人会调整他们的代理人对玩家二的选择,以迫使其他没有编写完美玩家一的代理人赢得最多的胜利。不同类型的学习策略会导致不同的缺陷,排行榜的顶部被当前最佳完美智能体占据,该智能体设法利用排名低于其的接近完美智能体的数量。由于 Connect 4 游戏与策略未知的代理对战的部分可观察性,顶级代理之间的这种差异是可能的。

究竟什么是部分可观察环境?

它们是至少在某些状态下,代理无法访问影响下一个状态或奖励分布的信息的环境。

国际象棋与对手对战,你有他们的行为模型 - 即他们的政策 - 对代理来说是完全可观察的。这是自我游戏代理和系统隐含的假设,并且在实践中可以很好地工作。

在没有行为模型的情况下与对手下棋是部分可观察的。理论上,您可以尝试使用部分可观察的 MDP 模型 (POMDP) 来构建一个系统来解释这一点,以尝试迫使对手进入他们更有可能做出对代理有利的决定的状态. 然而,简单地尽可能以最优方式应对对手的所有策略——即假设他们的策略与你的策略接近最优策略相同,即使在观察到他们的错误之后——在 RL 中更为常见。

最初的 Alpha Go 实际上有一个单独的策略网络,用于自己的选择和对人类的建模。这是通过实验选择的,因为它比假设人类对手使用与自我游戏代理相同的策略略好一些。

首先,注意当前状态并不能决定下一个状态。决定下一个状态的是环境的动态,在强化学习的背景下,特别是 MDP,被编码在概率分布中p(s,rs,a). 所以,如果代理处于某种状态s,它可能最终处于另一个状态s, 但这不仅仅取决于在s, 但也由a(你采取的行动s) 和p(环境动态)。

现在,在他们的第三版 AIMA 书中,Russell 和 Norvig 定义了完全可观察的环境,如下所示。

完全可观察与部分可观察如果代理的传感器允许它在每个时间点访问环境的完整状态,那么我们说任务环境是完全可观察的。如果传感器检测到与行动选择相关的所有方面,则任务环境是有效的完全可观察的;反过来,相关性取决于绩效衡量标准。完全可观察的环境很方便,因为代理不需要维护任何内部状态来跟踪世界。环境可能是部分可观察的因为传感器噪声和不准确,或者因为传感器数据中缺少部分状态——例如,只有本地污垢传感器的真空代理无法判断其他广场是否有污垢,自动出租车无法看到其他司机们正在思考。如果代理根本没有传感器,则环境是不可观察的。

这个定义也是强化学习中常用的定义。因此,要确定环境是完全可观察的还是部分可观察的,您需要确定您是否可以完全访问(马尔可夫)状态或在您的情况下什么构成状态。您可以认为国际象棋是完全可观察的,因为您可以访问棋盘的配置,因此,理论上,您可以通过考虑对手的所有可能动作来采取最佳行动(当然,在实践中,甚至 AlphaZero 也不会这样做) . 请参见第 2.6 页的图 2.6。AIMA 书(第 3 版)的第 45 页,提供了更多完全和部分可观察环境的示例。

部分可观察 MDP (POMDP)是一种数学框架,可用于对部分可观察环境进行建模,您可以在其中维护代理可能处于的当前(或下一个)状态的概率分布。

部分可观察的环境意味着从代理的角度来看,代理部分地观察环境。在每个时间步,代理都会根据这个部分观察采取行动。根据代理的动作,环境的状态会发生变化,但代理可能并不知道所有的变化。