强化学习是否应该总是假设(PO)MDP?

数据挖掘 深度学习 rnn 强化学习 马尔科夫过程
2022-01-30 14:20:28

我最近刚开始学习强化学习,了解到强化学习算法是在 MDP 或 POMDP 的假设下工作的。然而,当我阅读 A3C 和最近基于视觉的深度 RL 论文时,似乎其中一些并没有假设 MDP,而是使用 RNN 或 LSTM 让它看起来好像是 MDP。

所以我的问题是:如果没有(PO)MDP 的假设,强化学习算法如何工作?

1个回答

在没有 (PO)MDP 假设的情况下,强化学习算法如何工作?

它没有。强化学习理论与底层 MDP 框架紧密相关。您所指的基于 RNN 的解决方案与这样的 MDP 模型完全兼容,甚至不需要 POMPDP 就可以使用。

如果没有 (PO)MDP 模型的核心保证,或类似的模型,任何类型的代理都可能发生任何学习都不清楚。环境的 MDP 模型是关于描述一致的行为,在某种程度上是可预测的,否则是随机的/随机的,可预测的部分使其至少可以进行一些优化。分为状态、动作、时间步长和奖励有助于组织围绕这一点的思考。对于其他类型的策略搜索方法,例如遗传算法,它们不是必需的。但是,如果您尝试脱离适合 (PO)MDP 的东西,它也会破坏任何其他类型的有意义的策略:

  • 如果动作没有后果,那么您可以了解处于特定状态的价值,但您无法优化代理。这可以建模为马尔可夫奖励过程,前提是状态转换不是完全随机的,否则仅使用监督学习方法学习状态与奖励的关联将是您能做的最好的事情。

  • 如果奖励不是始终基于代理可用的任何数据,甚至不是历史数据,也不是随机的,那么就没有办法学习如何预测或优化奖励。

  • 同样对于状态转换,如果它们与任何已知的环境、当前状态或历史信息无关,但不是随机的,那么就无法了解非随机性,也没有一种代理可以生成有意义的政策利用有关系统的知识,因为可用的知识是不相关的。但是,如果当前状态仍然影响哪些行动可获得哪些奖励,那么上下文老虎机方法可能会起作用(加上监督学习方法可以预测当前可用的奖励)。

当有关奖励或状态转换的信息不能直接获得,但可以至少部分地从历史或上下文中推断或猜测时,您可以将其建模为 POMDP。

您可能面临的一种常见情况是您对环境有一些观察结果,但不确定如何构建具有马尔可夫属性的状态描述。当你的观察只给你位置时,一个物体的速度可能是这样一个细节。从技术上讲,如果您任意决定您的观察状态,那么 POMDP 和这种观察/状态不匹配是相同的基本问题。

当面对容易获得的观察结果和基于历史的更有用的状态描述之间的这种不匹配时,您可以尝试设计有用的特征,或者您可以转向学习模型来推断它们。就是使用 RNN 作为 RL 的一部分可以派上用场的地方,它们可以帮助观察到状态映射,还可以在 POMDP 中推断更复杂的隐藏状态变量。使用隐马尔可夫模型来模拟增强观察状态的“信念状态”类似于 RNN 的后者使用。