为什么在训练 Actor Critic 代理时需要梯度上升?

人工智能 强化学习 演员批评方法
2021-11-14 12:38:38

我已经阅读了很多关于 Actor Critic 的文章,但我不相信在网络上进行直接梯度更新和在优势函数的方向上稍微调整 soft-max 输出以及对误差进行梯度下降会有质的差异。

谁能解释为什么需要直接更新渐变?

1个回答

它似乎给出了相同的更新方向,但它会收敛到理想的策略参数吗?

Actor-Critic 与 Sutton 1999 中的策略梯度定理一起被提出。它被证明可以最大化状态值函数。如果您能够证明您的技术实际上是最大化某些理想的目标函数,那么您也可以提出一些合理的建议。