RL 中连续动作空间场景的可用探索策略是什么?

人工智能 神经网络 强化学习 参考请求 演员批评方法
2021-11-13 04:24:20

我正在构建一个深度神经网络,作为持续(非偶发性)案例的演员批评强化学习算法中的策略估计器。我正在尝试确定如何探索动作空间。我通读了 Sutton 的这本教科书,在第 13.7 节中,他给出了一种探索连续动作空间的方法。本质上,您训练策略模型以提供均值和标准差作为输出,因此您可以从该高斯分布中采样一个值来选择一个动作。这看起来就像一个连续的动作空间等价物ϵ-贪婪的政策。

还有其他我应该考虑的持续行动空间探索策略吗?

我一直在网上做一些研究,发现一些与机器人技术中的 RL 相关的文章,发现PoWERPI^2算法的作用与教科书中的相似。

这些或其他算法是否“更好”(显然取决于要解决的问题)替代教科书中列出的连续动作空间问题?

我知道这个问题可能有很多答案,但我只是在寻找人们在实际工作中使用的选项的合理简短列表。

2个回答

我个人在连续行动空间方面的工作还不够,无法根据自己的经验自信地提供建议,但我可以为您指出可能的相关研究(比您已经为自己指出的研究更新):


近年来,涉及 RL 和连续动作空间的最常见/“流行”研究领域使用机器人/物理模拟器,例如 MuJoCo。一些例子:

  • 深度强化学习的异步方法提到在用于训练的损失函数中使用熵成本项来鼓励探索(参见参考资料后的补充材料)。
  • 用于探索的参数空间噪声描述了将噪声直接添加到神经网络上的学习参数的想法。这样,它基本上总是预测不同的动作是“最优的”(由于噪声),因此基于噪声参数的“贪婪”策略实际上会进行探索而不是完全贪婪。
  • DeepMind Control Suite是最近发表的一篇论文,它提出了一套针对连续控制问题的基准。它充满了对描述各种算法的相关论文的引用,希望这些论文中的每一篇也能描述它们如何进行探索。

最近,在 ICML 2018 会议上,有一个完整的研讨会致力于强化学习中的探索。这是本次研讨会接受的论文列表请注意,它是关于 RL 中的探索,而不仅仅是关于连续动作空间,因此其中可能有仅适用于离散动作空间的论文。尽管如此,如果里面没有任何相关的东西,我会感到非常惊讶。

首先,请注意,您描述的高斯策略等同于ϵ-贪婪,主要是因为:对于固定策略,高斯情况下策略的方差取决于状态,而在高斯情况下,策略的方差取决于状态。ϵ-贪婪的情况下没有。马上,高斯政策的遗憾应该比ϵ-贪婪的。

在连续动作空间中探索的其他方法包括:

  • 以不同的方式参数化策略。您不仅限于高斯分布,而是任何可参数化的分布(特别是那些可以根据重新参数化技巧重新参数化的分布)都可以。
  • 使用熵奖励。您可以在损失函数的表达式中减去策略的熵,这有助于防止您的策略在代理充分了解环境之前变得“过于确定”。
  • 基于惊喜/好奇的方法。我的意思是基于政策中的某种不确定性度量来进行奖励塑造的方法——在每次过渡时,这种不确定性度量都会被添加到奖励中。例如,请参阅“通过随机网络蒸馏进行探索”。
  • 最大熵方法。这些目标与同样强调策略熵的标准 RL 略有不同,因此它们应该促进探索。例如,参见 SAC。
  • 使用确定性策略梯度。然后你可以从字面上申请ϵ-greedy,如果你愿意,或者只是在策略的输出中添加噪音。例如,参见 TD3。

我怀疑这是一份详尽的清单,但我希望它有所帮助。