强化学习中的观察和状态有什么区别?

人工智能 强化学习 术语
2021-10-26 20:48:36

我正在研究强化学习。似乎“状态”和“观察”的意思完全一样。他们都捕捉到了游戏的当前状态。

这两个术语有区别吗?观察是否可能是采取行动后的状态?

1个回答

有时观察和状态完全重叠,这很方便。但是,没有理由在所有情况下都期望它,这就是有趣的问题发生的地方。

强化学习理论基于马尔可夫决策过程这导致了对状态的正式定义。最重要的是,状态必须具有马尔可夫属性这意味着,对于 RL 根据理论工作,了解状态意味着您了解所有可以确定环境对特定动作的响应的已知信息。在行动解决之前,剩下的一切都必须是纯随机的,原则上是不可知的。

诸如确定性或概率驱动游戏以及计算机控制的模拟之类的系统可以设计为具有具有此属性的易于观察的状态。具有这种特征的游戏通常被称为“完美信息游戏”,尽管您可能拥有未知信息,前提是它以纯粹随机的方式显示。

在实践中,现实世界的交互包含太多细节,以至于任何观察都无法成为具有马尔可夫属性的真实状态。例如,考虑倒立摆环境,这是一个经典的 RL 玩具问题。一个真正的倒立摆会根据它的温度表现出不同的行为,而温度可能会随着它的长度而变化。关节和执行器可能很粘。旋转和运动会改变温度和摩擦力等。但是,RL 代理通常只会考虑手推车和摆锤的当前运动和位置。在这种情况下,通常对 4 个特征的观察就足够了,基于此的状态几乎具有马尔可夫性质。

还有一些问题是观察不足以为 RL 系统提供可用的状态数据。Deep Mind Atari DQN 论文有几个例子。第一个例子是单帧丢失了关于运动的数据。这可以通过获取四个连续的帧并将它们组合成一个状态来解决。可以说每一帧都是一个观察,并且必须将四个观察结合起来才能构建一个更有用的状态(尽管这可以作为语义搁置一旁)。

Atari DQN 中的第二个示例是像素观察不包括游戏正在跟踪但在屏幕上不可见的数据。带有大滚动地图的游戏是玩 Atari 的 DQN 的一个弱点,因为它的状态除了用于移动的四个屏幕外,没有其他屏幕记忆。这种游戏的一个例子是,Deep Mind 的玩家比人类玩家做得更糟糕的是 Montezuma's Revenge,要想取得进展,必须记住一些屏幕外的位置。

有一些方法可以解决问题中存在未观察到但相关的状态的知识。描述问题的一般框架是部分可观察马尔可夫决策过程 (POMDP)可行的解决方案包括向状态表示添加显式记忆或“信念状态”,或使用诸如 RNN 之类的系统来内化由一系列观察驱动的状态表示的学习。