机器算法验证 - 强化学习中动态规划和时间差异学习的区别 - 吾爱随笔录

机器算法验证强化学习

2022-03-03 12:53:21

在强化学习中，动态规划和时间差分学习有什么区别？

1个回答

DP 通过递归求解最优策略或价值函数。它需要马尔可夫决策过程（MDP）或世界模型的知识，以便可以执行递归。它通常归类为“计划”而不是“学习”，因为您已经了解 MDP，并且只需要弄清楚要做什么（最佳）。

TD 是无模型的：它不需要世界模型的知识。它是迭代的，基于模拟的，并且通过引导学习，即使用其他状态或动作的值来估计状态或动作的值。

有关详细信息，请参阅：

其它你可能感兴趣的问题