Q-learning 可以在 POMDP 中使用吗?

人工智能 强化学习 q学习 pomdp 马尔可夫决策过程 萨尔萨
2021-11-11 00:32:30

Q-learning(和 SARSA)可以直接用于部分可观察马尔可夫决策过程(POMDP)吗?如果不是,为什么不呢?我的直觉是,由于部分可观察性,学到的策略会很糟糕。有没有办法转换这些算法,以便它们可以在 POMDP 中轻松使用?

1个回答

通常(如强化学习:简介中所述)Q- 学习和 SARSA 算法使用(和更新)状态函数s和行动a,Q(s,a). 这些算法假设当前状态s是已知的。然而,在 POMDP 中,在每个时间步,代理都不知道当前状态,但它对当前状态可能是什么保持“信念”(在数学上,它表示为概率分布),因此它无法保持(近似)函数Q(s,a). 因此,通常的 Q-learning 和 SARSA 算法不应该直接应用于 POMDP。

然而,Q-学习通常用于环境发出的观察(或原始观察的转换)用于构建当前状态(假设为马尔可夫,即使不是)的上下文。例如,在原始 DQN中,当前步骤采取的动作与环境发出的原始观察和奖励(在采取此动作之后)结合起来产生当前(马尔可夫)状态。他们结合行动、奖励和观察的方式可能不足以完全描述当前状态(甚至可能不是马尔可夫)。

在这份报告中,使用 POMDP 进行深度强化学习,作者尝试在 POMDP 设置中使用 Q 学习。他建议表示一个函数,要么(b,一个)或者(H,一个), 在哪里b是对国家的“信仰”和H使用神经网络的先前执行动作的历史。因此,生成的参数化函数将表示为(b,一个;θ)或者(H,一个;θ), 在哪里θ是表示相应神经网络参数的向量。本质上,作者使用了一个 DQN(带有经验回放缓冲区和目标网络),但结果并不理想:价值观会收敛,但政策不会收敛,而且它们并不稳健(因为它们对小扰动很敏感)。