如何将强化/策略梯度算法应用于连续动作空间。我了解到策略梯度的优点之一是,它适用于连续动作空间。我能想到的一种方法是将动作空间离散化,就像我们为 dqn 所做的那样。我们是否也应该对策略梯度算法采用相同的方法?或者有没有其他方法可以做到这一点?
谢谢
如何将强化/策略梯度算法应用于连续动作空间。我了解到策略梯度的优点之一是,它适用于连续动作空间。我能想到的一种方法是将动作空间离散化,就像我们为 dqn 所做的那样。我们是否也应该对策略梯度算法采用相同的方法?或者有没有其他方法可以做到这一点?
谢谢
是的,这是可能的。可以通过以下方式完成:
我们假设动作分布是高斯分布,即我们需要学习参数的. 让我们这么说由神经网络的权重给出,我们通过优化目标找到
其中和是累积折扣奖励。然后梯度就是每个策略梯度定理。
在实践中,我们设计了一个神经网络,每个动作维度既可以学习也可以保持固定。如果学会了,我们将输出解释为,因此它可以取任何值(例如,变为负数)。为了对动作进行采样,我们使用网络学习的输出。
参见例如TP Lillicrap、JJ Hunt、A. Pritzel、N. Heess、T. Erez、Y. Tassa、D. Silver 和 D. Wierstra。“深度强化学习的持续控制”,国际学习表示会议,2016 年。