具有极端政策的概率是否普遍?

人工智能 强化学习 政策梯度 政策
2021-10-24 06:42:31

我已经实现了几种策略梯度算法(REINFORCE、A2C 和 PPO),并且发现最终策略的动作概率分布可能相当极端。作为说明,我的实现基于 OpenAI 的基线。我一直在使用 NN 作为函数逼近器,然后是 Softmax 层。例如,对于 Cartpole,我最终会得到类似的动作分布[1.0,3e17]. 对于单个动作,我可以理解这一点,但顺序轨迹最终的概率为 1。我一直在计算轨迹概率iπ(ai|si). 改变学习率会改变我到达这个分布的速度,我使用了[1e6,0.1]. 在我看来,轨迹的概率永远不应始终为 1.0 或 0.0,尤其是在随机开始的情况下。这也发生在 LunarLander 等环境中。

在大多数情况下,由此产生的策略是接近最优的解决方案,通过了解决 OpenAI 设定的环境的标准。一些随机种子是次优的

我一直在尝试识别代码中的错误,但我不确定所有 3 种算法和环境中的错误是什么。

有如此极端的政策概率是常见的吗?是否有一种通用的方法来处理更新,以使策略的概率不会如此极端?任何见解将不胜感激!

1个回答

您的策略梯度算法似乎按预期工作。所有标准 MDP 都有一个或多个确定性最优解,这些是求解器将收敛到的策略。使这些策略中的任何一个更加随机通常会降低它们的有效性,使它们变得次优。因此,一旦发现始终如一的好动作,学习过程将自然地减少由于梯度的探索,就像具有干净数据集的 softmax 分类器一样。

在某些情况下,随机策略可能是最佳的,您可以检查您的实现是否可以找到这些情况:

  • 一种部分可观察的 MDP (POMDP),其中一个或多个需要不同最优动作的关键状态对代理来说是无法区分的。例如,状态可能是走廊上的可用出口,试图在一个小迷宫中到达终点,其中一个位置秘密地(即,代理在状态表示中没有任何信息表明该位置不同)反转所有方向,因此确定性代理不可能继续前进,但随机代理最终会通过。

  • 在针对特定随机策略发生纳什均衡的相反猜谜游戏中。例如剪刀、纸、石头游戏,其中自我博弈的最佳策略应该是以 1/3 的机会随机选择每个选项。

第一个示例可能最容易设置一个玩具环境,以表明您的实现可以在需要时找到随机解决方案。这种环境的一个具体例子是Sutton & Barto: Reinforcement Learning, An Introduction第 13 章,第 323 页的示例 13.1。

在自我博弈中设置对立的代理人更难,但如果你能让它发挥作用并发现政策的纳什平衡点,这将进一步证明你做对了一些事情。