TD(0) 的收敛性有简单的证明吗?

人工智能 强化学习 参考请求 证明 收敛 时差法
2021-10-30 04:51:54

有人知道 TD(0) 值函数预测算法收敛的简单证明吗?

在此处输入图像描述

1个回答

据我所知,时间差分算法的收敛性并没有非常简单的证明。TD 算法的收敛性证明通常基于随机逼近理论(假设Q-learning 可以被视为一个随机过程)以及Robbins 和 Monro的工作(实际上,Robbins-Monro 条件通常假设在定理和证明)。

当值函数以表格形式表示(而不是用例如神经网络来近似)时,Q-learning(一种 TD(0) 算法)和 SARSA(另一种 TD(0) 算法)的收敛证明可以可以在不同的研究论文中找到。

例如,表格 Q 学习的收敛证明可以在Tommi Jaakkola 等人的论文Convergence of Stochastic Iterative Dynamic Programming Algorithms (1994) 中找到。表格 SARSA 收敛的证明可以在Satinder Singh 等人的论文Convergence Results for Single-Step On-Policy Reinforcement-Learning Algorithms (2000) 中找到。

另请参阅如何显示时间差异方法收敛到 MLE?.