强化学习中动态规划和时间差异学习的区别

机器算法验证 强化学习
2022-03-03 12:53:21

在强化学习中,动态规划和时间差分学习有什么区别?

1个回答

DP 通过递归求解最优策略或价值函数。它需要马尔可夫决策过程(MDP)或世界模型的知识,以便可以执行递归。它通常归类为“计划”而不是“学习”,因为您已经了解 MDP,并且只需要弄清楚要做什么(最佳)。

TD 是无模型的:它不需要世界模型的知识。它是迭代的,基于模拟的,并且通过引导学习,即使用其他状态或动作的值来估计状态或动作的值。

有关详细信息,请参阅:

http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html