在强化学习中,时间差异似乎会在每次从环境中吸收的新经验迭代中更新价值函数。
时差学习最终收敛的条件是什么?如何保证收敛?
对导致收敛的那些条件有任何直观的理解吗?
在强化学习中,时间差异似乎会在每次从环境中吸收的新经验迭代中更新价值函数。
时差学习最终收敛的条件是什么?如何保证收敛?
对导致收敛的那些条件有任何直观的理解吗?
有不同的 TD 算法,例如 Q-learning 和 SARSA,它们的收敛特性已被单独研究(在许多情况下)。
在一些收敛证明中,例如在论文Q-learning 的收敛:一个简单的证明(Francisco S. Melo)中,Q-learning 收敛(概率)所需的条件是 Robbins-Monro 条件
在哪里是时间步的学习率(这可能取决于状态和行动),并且每个状态都被无限频繁地访问。
(Robbins-Monro 条件(1 和 2)归功于 Herbert Robbins 和 Sutton Monro,他们在 1950 年代通过论文A Stochastic Approximation Method开始了随机逼近领域。RL 和随机逼近的领域是相关的。参见此答案以获取更多详细信息。)
但是,请再次注意,TD 方法收敛的具体所需条件可能会因证明和特定的 TD 算法而异。例如,Richard S. Sutton 在Learning to Predict by the Methods of Temporal Differences中没有假设 Robbins-Monro 条件(因为这不是概率收敛的证明,而是期望收敛的证明)。
此外,请注意,上述证明仅适用于 Q-learning 的表格版本。如果使用函数逼近,Q-learning(和其他 TD 算法)可能不会收敛。然而,在某些情况下,Q-learning 与函数逼近相结合会收敛。请参阅Francisco S. Melo 等人的 An Analysis of Reinforcement Learning with Function Approximation。和SBEED: Bo Dai 等人的非线性函数逼近的收敛强化学习。