可信区域策略优化 (TRPO) 和近端策略优化 (PPO) 是两种前沿的策略梯度算法。
当使用单个连续动作时,通常会使用一些概率分布(例如,高斯)作为损失函数。粗略的版本是:
在哪里是奖励的优势,的特点是和就像在 Pendulum 环境中一样来自神经网络:https ://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4/main.py 。
问题是我找不到任何关于使用策略梯度的 2+ 连续动作的论文(不是通过从 Q 函数转移梯度而使用不同方法的演员批评方法)。
您知道如何在LunarLander 环境中使用 TRPO 进行 2 次连续操作吗?
以下方法对策略梯度损失函数是否正确?