考虑Breakout 环境。
我们知道底层世界的行为类似于 MDP,因为对于系统的演进,它只需要知道当前状态(即球的位置、速度和速度方向,积木的位置和桨的位置)等)是。但是,仅考虑单帧作为状态空间,我们有一个 POMDP,因为我们缺乏关于动态[1]、[2]的信息。
如果我们错误地假设 POMDP 是一个 MDP,并在 MDP 上使用这个假设进行强化学习,会发生什么?
显然,这个问题更笼统,不仅限于 Breakout 和 Atari 游戏。
考虑Breakout 环境。
我们知道底层世界的行为类似于 MDP,因为对于系统的演进,它只需要知道当前状态(即球的位置、速度和速度方向,积木的位置和桨的位置)等)是。但是,仅考虑单帧作为状态空间,我们有一个 POMDP,因为我们缺乏关于动态[1]、[2]的信息。
如果我们错误地假设 POMDP 是一个 MDP,并在 MDP 上使用这个假设进行强化学习,会发生什么?
显然,这个问题更笼统,不仅限于 Breakout 和 Atari 游戏。
如果我们错误地假设 POMDP 是一个 MDP,并在 MDP 上使用这个假设进行强化学习,会发生什么?
这取决于几件事。强化学习的理论基础需要状态描述具有马尔可夫特性,以保证收敛到最优或近似最优解。马尔可夫属性要求状态定义奖励和下一个状态(给定动作)的可控变化的 100% - 其余部分必须是纯随机的。
MDP 可以“接近马尔可夫”,许多现实世界的物理系统都是这样的。例如,极平衡和特技机器人任务可以作为使用电机、轮子、关节等的物理系统来实现。在这些实际系统中,状态测量的准确性存在限制,并且存在许多隐藏变量,例如可变温度(影响部件长度)、摩擦效应、空气湍流。那些严格按照正式定义采取的隐藏变量将使系统成为 POMDP。然而,与关键状态变量相比,它们的影响很小,在某些情况下,从代理的角度来看,它们实际上是随机的。在实践中,尽管状态数据在技术上不完整,但 RL 在真实的物理系统中运行良好。
在使用多帧图像作为状态的 Atari 游戏中,这些状态在不同程度上已经是非马尔可夫状态。通常,计算机游戏的状态可能包括许多未显示在屏幕上的特征。敌人可能有总生命值或其他隐藏状态,可能有计时器控制危险的出现,并且在大量游戏中,屏幕只显示整个游戏区域的相对较小的窗口。但是,Deep Mind DQN 网络在各种滚动战斗和平台游戏上表现出色。
DQN 表现特别糟糕的一款游戏——不比默认随机玩家好——是蒙特祖玛的复仇。该平台益智游戏不仅具有要遍历的大地图,而且还包含一个屏幕上的状态会影响另一个屏幕上的结果的组件。
很难就缺少有用状态信息的 MDP 将在哪些方面受益于更正式地视为 POMDP 做出一般性陈述。您的问题本质上是反向表达的相同内容。
任何非平凡环境的真正答案都是尝试一个实验。也可以做出一些有根据的猜测。这些猜测的基础可能是这样一个问题:“如果代理可以x
从状态中知道隐藏的特征,那么预期的奖励和政策会有多大的不同?”
对于使用每个单帧作为状态表示的突破示例,我希望以下内容成立:
价值估计变得更加困难,因为看到球靠近砖块 - 与看到球逐渐接近砖块超过 4 帧相比 - 不太相信它即将击中砖块并得分。
代理人应该仍然可以优化比赛,因为一种工作策略是始终将“球棒”放在球下方。这意味着对反弹角度的控制不太精确,所以我预计它的性能会比四帧版本差。但是,它仍然应该比默认的随机动作代理要好得多。这一观察的一个关键驱动因素是,看到球靠近屏幕底部,而不是靠近球棒,仍然可以很好地预测未来预期回报较低(即使是球上升与下降的平均概率) ),因此控制器应采取行动防止此类状态发生。