为什么可以使用单个轨迹来更新策略网络θθ在A3C?

人工智能 政策梯度 演员批评方法
2021-11-13 10:52:25

策略梯度技术的深度强化学习训练营给出了 A3C 中策略网络的更新方程为

θi+1=θi+α×1/mk=1mt=0H1θlogπθi(ut(k)|st(k))(Q(st(k),ut(k))VΦiπ(st(k)))

但是在实际的 A3C 论文中,梯度更新是基于单个轨迹的,并且没有对梯度进行平均。m视频中定义的轨迹?简单的动作-价值演员-评论家算法似乎也不需要对 m 轨迹进行平均。

1个回答

我猜效用函数的期望梯度,θJ(θ)在策略梯度方法中θJ(θ)=Eτp(τ;θ)[r(τ)θlogp(τ;θ)]可以使用单个样本轨迹来近似,如stanford 的深度强化学习讲座中所示,其中J(θ)t>0r(τ)θlogπθ(at|st)并且不需要平均采样轨迹来计算梯度θ梯度方向更新。