我正在构建一个深度神经网络,作为持续(非偶发性)案例的演员批评强化学习算法中的策略估计器。我正在尝试确定如何探索动作空间。我通读了 Sutton 的这本教科书,在第 13.7 节中,他给出了一种探索连续动作空间的方法。本质上,您训练策略模型以提供均值和标准差作为输出,因此您可以从该高斯分布中采样一个值来选择一个动作。这看起来就像一个连续的动作空间等价物-贪婪的政策。
还有其他我应该考虑的持续行动空间探索策略吗?
我一直在网上做一些研究,发现一些与机器人技术中的 RL 相关的文章,发现PoWER和PI^2算法的作用与教科书中的相似。
这些或其他算法是否“更好”(显然取决于要解决的问题)替代教科书中列出的连续动作空间问题?
我知道这个问题可能有很多答案,但我只是在寻找人们在实际工作中使用的选项的合理简短列表。