为什么是价值和策略迭代动态规划算法?

机器算法验证 强化学习 政策迭代 价值迭代 动态规划
2022-03-21 17:51:41

策略迭代价值迭代等算法通常被归类为试图求解贝尔曼最优方程的动态规划方法。

我目前对动态规划的理解是这样的:

  1. 它是一种应用于优化问题的方法。
  2. DP问题表现出最优子结构,即问题的最优解包含子问题的最优解。
  3. 这些子问题不是相互独立的,而是重叠的。
  4. 有两种方法——一种是自下而上,另一种是自上而下。

我有以下问题:

  1. 这种对DP的理解是否全面?每个 DP 算法是否都有一个具有重叠子问题的最优子结构?

  2. 策略迭代和价值迭代如何适应这个方案?我们可以称之为自下而上还是自上而下?

1个回答

你看过西尔弗的演讲吗?您是否知道 Bellman 创造了动态规划术语,他的第一本书在 1957 年被称为“动态规划”,请参阅Wikipedia

  1. DP 是一种针对具有最优子结构和重叠子问题的问题的算法技术。相反,如果问题具有不重叠的子问题属性,则只需求解一次。
  2. 在自上而下的 DP 方法(见下文)中,我们根据先前存储的结果找到了解决方案。在策略迭代(策略评估 + 迭代)和值迭代中,我们根据最优策略和状态值的旧估计更新每个状态的值。

认为“经典”DP之间也存在差异,因为在策略和价值迭代中,我们迭代地应用更新步骤直到收敛。在 DP 中,更新可以一次性完成。

在此处输入图像描述

在此处输入图像描述