在强化学习中,动态规划和时间差分学习有什么区别?
强化学习中动态规划和时间差异学习的区别
机器算法验证
强化学习
2022-03-03 12:53:21
1个回答
DP 通过递归求解最优策略或价值函数。它需要马尔可夫决策过程(MDP)或世界模型的知识,以便可以执行递归。它通常归类为“计划”而不是“学习”,因为您已经了解 MDP,并且只需要弄清楚要做什么(最佳)。
TD 是无模型的:它不需要世界模型的知识。它是迭代的,基于模拟的,并且通过引导学习,即使用其他状态或动作的值来估计状态或动作的值。
有关详细信息,请参阅:
其它你可能感兴趣的问题