我已经阅读了很多关于 Actor Critic 的文章,但我不相信在网络上进行直接梯度更新和在优势函数的方向上稍微调整 soft-max 输出以及对误差进行梯度下降会有质的差异。
谁能解释为什么需要直接更新渐变?
我已经阅读了很多关于 Actor Critic 的文章,但我不相信在网络上进行直接梯度更新和在优势函数的方向上稍微调整 soft-max 输出以及对误差进行梯度下降会有质的差异。
谁能解释为什么需要直接更新渐变?
它似乎给出了相同的更新方向,但它会收敛到理想的策略参数吗?
Actor-Critic 与 Sutton 1999 中的策略梯度定理一起被提出。它被证明可以最大化状态值函数。如果您能够证明您的技术实际上是最大化某些理想的目标函数,那么您也可以提出一些合理的建议。