人工智能 - 如果政策不稳定，为什么要在政策完善后重新进行政策评估？ - 吾爱随笔录

如果政策不稳定，为什么要在政策完善后重新进行政策评估？

人工智能强化学习价值迭代政策迭代政策评估政策改进

2021-10-20 04:29:09

以上是 Sutton 的 RL 书中的 Policy Iteration 算法。因此，第 2 步实际上看起来像值迭代，然后，在第 3 步（策略改进），如果策略不稳定，则返回第 2 步。

我不太明白这一点：看起来，如果你在一个小范围内执行第 2 步 $\Delta$ ，那么您对价值函数的估计应该非常接近每个状态的最优值。

那么，为什么在政策完善后还需要再次访问呢？

似乎政策改进只是改善了政策功能，但这并不影响价值功能，所以我不确定如果政策不稳定，你为什么需要回到第 2 步。

1个回答

准确的价值函数估计和最优价值函数之间存在差异。最优价值函数更具体地说是最优策略的价值函数。

值函数总是特定于某些策略，这就是为什么你会经常看到下标 $\pi$ 在例如 $v_{\pi}(s)$ 当有明确的政策时。

无论当前策略是什么，策略迭代中的策略评估步骤（步骤 2）都会收敛到准确的价值函数估计。一般来说，这不会是一个最优值函数，除非最后一次使用了第 2 步，并且在下一阶段的策略改进（第 3 步）中策略没有变化。

对于任何价值函数估计，策略改进阶段（步骤 3）只能有效地运行一次。该策略被更新为相对于步骤 2 中的价值函数是贪婪的——这将始终从相同的价值函数估计中给出相同的结果。如果价值函数是准确的，那么这个新策略保证与之前的策略一样好或更好。完成第 3 步后，只有在准确评估新策略的情况下，才有可能进一步改进。

与值迭代的比较

价值迭代的不同之处在于它永远不会准确地评估任何临时政策。在价值迭代中，每次最大化行动由于新的价值估计而改变时，隐含的策略就会改变。在后期，当最优策略已经找到并且稳定时，价值函数将收敛到最优价值函数。在值迭代中，大多数中间值函数并不准确，但当它变得准确时，它也将是最优值函数。

其它你可能感兴趣的问题

上一篇如何识别两张脸是否包含同一个人？下一篇我们如何教神经网络进行任意数据关联？