根据我的理解,critic 评估策略(actor)遵循动态规划(DP)或近似动态规划(ADP)方案,在足够的迭代后应该收敛到最优值函数。然后,策略(参与者)使用梯度方法更新其参数 wrt 最佳值函数。重复这个策略评估和改进循环,直到批评者和参与者都不再改变。
如何保证整体收敛?有数学证明吗?它是否有可能收敛到局部最优点而不是全局最优点?
根据我的理解,critic 评估策略(actor)遵循动态规划(DP)或近似动态规划(ADP)方案,在足够的迭代后应该收敛到最优值函数。然后,策略(参与者)使用梯度方法更新其参数 wrt 最佳值函数。重复这个策略评估和改进循环,直到批评者和参与者都不再改变。
如何保证整体收敛?有数学证明吗?它是否有可能收敛到局部最优点而不是全局最优点?
有不同的actor-critic(AC)算法具有不同的收敛保证。例如,critic 是表格的 AC 算法与critic 是神经网络(函数逼近)的 AC 算法具有不同的收敛保证。大多数收敛证明假设演员和评论家在不同的时间尺度上运行,但是,例如,在论文A Convergent Online Single Time Scale Actor-Critic Algorithm (2010) 中没有做出这个假设。
在论文Incremental Natural Actor-Critic Algorithms (2007) 中,作者提出了四种不同的 AC 算法,它们使用函数逼近(神经网络)来表示评论家。其中三个提出的 AC 算法是基于自然策略梯度的。在上述论文的扩展和更多技术版本的第 6 节中,Natural Actor-Critic Algorithm (2007),作者证明了策略和价值函数的参数收敛到目标(或性能)函数的局部最大值,这对应于平均奖励(等式 2)加上函数逼近中固有的时间差 (TD) 误差的度量。