策略梯度技术的深度强化学习训练营给出了 A3C 中策略网络的更新方程为
但是在实际的 A3C 论文中,梯度更新是基于单个轨迹的,并且没有对梯度进行平均。视频中定义的轨迹?简单的动作-价值演员-评论家算法似乎也不需要对 m 轨迹进行平均。
策略梯度技术的深度强化学习训练营给出了 A3C 中策略网络的更新方程为
但是在实际的 A3C 论文中,梯度更新是基于单个轨迹的,并且没有对梯度进行平均。视频中定义的轨迹?简单的动作-价值演员-评论家算法似乎也不需要对 m 轨迹进行平均。
我猜效用函数的期望梯度,在策略梯度方法中可以使用单个样本轨迹来近似,如stanford 的深度强化学习讲座中所示,其中并且不需要平均采样轨迹来计算梯度梯度方向更新。