机器算法验证 - 为什么是价值和策略迭代动态规划算法？ - 吾爱随笔录

机器算法验证强化学习政策迭代价值迭代动态规划

2022-03-21 17:51:41

策略迭代和价值迭代等算法通常被归类为试图求解贝尔曼最优方程的动态规划方法。

我目前对动态规划的理解是这样的：

我有以下问题：

1个回答

你看过西尔弗的演讲吗？您是否知道 Bellman 创造了动态规划术语，他的第一本书在 1957 年被称为“动态规划”，请参阅Wikipedia？

DP 是一种针对具有最优子结构和重叠子问题的问题的算法技术。相反，如果问题具有不重叠的子问题属性，则只需求解一次。
在自上而下的 DP 方法（见下文）中，我们根据先前存储的结果找到了解决方案。在策略迭代（策略评估 + 迭代）和值迭代中，我们根据最优策略和状态值的旧估计更新每个状态的值。

我认为“经典”DP之间也存在差异，因为在策略和价值迭代中，我们迭代地应用更新步骤直到收敛。在 DP 中，更新可以一次性完成。

其它你可能感兴趣的问题