具有连续动作空间的策略梯度

数据挖掘 强化学习 dqn 政策梯度
2022-03-03 20:11:51

如何将强化/策略梯度算法应用于连续动作空间。我了解到策略梯度的优点之一是,它适用于连续动作空间。我能想到的一种方法是将动作空间离散化,就像我们为 dqn 所做的那样。我们是否也应该对策略梯度算法采用相同的方法?或者有没有其他方法可以做到这一点?

谢谢

1个回答

是的,这是可能的。可以通过以下方式完成:

我们假设动作分布是高斯分布,即我们需要学习参数θN(a|μθ,σθ). 让我们这么说θ由神经网络的权重给出,我们通过优化目标找到

maxθEpθ[R(s,a)pθ(a|s)],
其中是累积折扣奖励。然后梯度就是每个策略梯度定理pθ(s,a)=N(a|μθ,σθ)R(s,a)Epθ[θR(s,a)logpθ(a|s)]

在实践中,我们设计了一个神经网络,每个动作维度既可以学习也可以保持固定。如果学会了,我们将输出解释为,因此它可以取任何值(例如,变为负数)。为了对动作进行采样,我们使用网络学习的输出。μσlogσ

参见例如TP Lillicrap、JJ Hunt、A. Pritzel、N. Heess、T. Erez、Y. Tassa、D. Silver 和 D. Wierstra。“深度强化学习的持续控制”,国际学习表示会议,2016 年。