如何显示时间差异方法收敛到 MLE?

人工智能 强化学习 证明 收敛 时差法
2021-10-27 02:58:51

Sutton 和 Barto (p. 128) 的第 6 章中,他们声称时间差异收敛到最大似然估计 (MLE)。这怎么能正式显示?

1个回答

(线性)时间差分方法(在批量训练下,因此不是在线学习)的收敛性和最优性证明可以在Richard Sutton的论文Learning to predict by the methods of temporal Differences (1988) 中找到,特别是第 4 节(p . 23). 在本文中,Sutton 使用了与 Sutton 和 Barto 着名的《强化学习:介绍》(第 2 版)中使用的符号不同的符号,因此我建议您在尝试理解该定理之前先熟悉该符号。证明。例如,Sutton 使用等字母表示状态(而不是),表示(标量)结果ijsz表示(向量)观测值(参见第 3.2 节,了解该符号的用法示例)。x

在论文The Convergence of TD( ) for Generalλλ (1992) 中,Peter Dayan 除了概括 Sutton 提供的收敛证明外,还展示了 TD( ) 的收敛性质,并扩展了 Watkins 的 Q -学习收敛定理,其草图在他的博士论文Learning from Delayed Rewards (1989) 中有详细定义,并在 Dayan 和 Watkins 的Technical Note: Q-learning (1992) 中详细定义,以提供第一个最强的保证或收敛证明对于 TD(0)。λ

关于 TD 方法的收敛特性还有更多的研究工作,例如 Q-learning 和 SARSA。例如,在论文On the Convergence of Stochastic Iterative Dynamic Programming Algorithms (1994) 中,Q-learning 被呈现为动态规划方法的随机形式,作者通过直接使用随机逼近理论另见Q-learning 的收敛:Francisco S. Melo 的简单证明在论文Convergence Results for Single-Step On-Policy Reinforcement-Learning Algorithms中,作者提供了在线时间差分方法(例如 SARSA)的收敛特性的证明。