人工智能 - TD(0) 的收敛性有简单的证明吗？ - 吾爱随笔录

人工智能强化学习参考请求证明收敛时差法

2021-10-30 04:51:54

有人知道 TD(0) 值函数预测算法收敛的简单证明吗？

1个回答

据我所知，时间差分算法的收敛性并没有非常简单的证明。TD 算法的收敛性证明通常基于随机逼近理论（假设Q-learning 可以被视为一个随机过程）以及Robbins 和 Monro的工作（实际上，Robbins-Monro 条件通常假设在定理和证明）。

当值函数以表格形式表示（而不是用例如神经网络来近似）时，Q-learning（一种 TD(0) 算法）和 SARSA（另一种 TD(0) 算法）的收敛证明可以可以在不同的研究论文中找到。

其它你可能感兴趣的问题