人工智能 - actor-critic 算法如何保证收敛？ - 吾爱随笔录

actor-critic 算法如何保证收敛？

人工智能强化学习演员批评方法收敛

2021-10-19 05:05:50

根据我的理解，critic 评估策略（actor）遵循动态规划（DP）或近似动态规划（ADP）方案，在足够的迭代后应该收敛到最优值函数。然后，策略（参与者）使用梯度方法更新其参数 wrt 最佳值函数。重复这个策略评估和改进循环，直到批评者和参与者都不再改变。

如何保证整体收敛？有数学证明吗？它是否有可能收敛到局部最优点而不是全局最优点？

1个回答

有不同的actor-critic（AC）算法具有不同的收敛保证。例如，critic 是表格的 AC 算法与critic 是神经网络（函数逼近）的 AC 算法具有不同的收敛保证。大多数收敛证明假设演员和评论家在不同的时间尺度上运行，但是，例如，在论文A Convergent Online Single Time Scale Actor-Critic Algorithm (2010) 中没有做出这个假设。

在论文Incremental Natural Actor-Critic Algorithms (2007) 中，作者提出了四种不同的 AC 算法，它们使用函数逼近（神经网络）来表示评论家。其中三个提出的 AC 算法是基于自然策略梯度的。在上述论文的扩展和更多技术版本的第 6 节中，Natural Actor-Critic Algorithm (2007)，作者证明了策略和价值函数的参数收敛到目标（或性能）函数的局部最大值，这对应于平均奖励（等式 2）加上函数逼近中固有的时间差 (TD) 误差的度量。

其它你可能感兴趣的问题

上一篇ML 模型满足商业用途的标准是什么？下一篇如何创建非分类 CNN 以从图像中获取信息？