策略迭代和价值迭代等算法通常被归类为试图求解贝尔曼最优方程的动态规划方法。
我目前对动态规划的理解是这样的:
- 它是一种应用于优化问题的方法。
- DP问题表现出最优子结构,即问题的最优解包含子问题的最优解。
- 这些子问题不是相互独立的,而是重叠的。
- 有两种方法——一种是自下而上,另一种是自上而下。
我有以下问题:
这种对DP的理解是否全面?每个 DP 算法是否都有一个具有重叠子问题的最优子结构?
策略迭代和价值迭代如何适应这个方案?我们可以称之为自下而上还是自上而下?
策略迭代和价值迭代等算法通常被归类为试图求解贝尔曼最优方程的动态规划方法。
我目前对动态规划的理解是这样的:
我有以下问题:
这种对DP的理解是否全面?每个 DP 算法是否都有一个具有重叠子问题的最优子结构?
策略迭代和价值迭代如何适应这个方案?我们可以称之为自下而上还是自上而下?