如果政策不稳定,为什么要在政策完善后重新进行政策评估?

人工智能 强化学习 价值迭代 政策迭代 政策评估 政策改进
2021-10-20 04:29:09

在此处输入图像描述

以上是 Sutton 的 RL 书中的 Policy Iteration 算法。因此,第 2 步实际上看起来像值迭代,然后,在第 3 步(策略改进),如果策略不稳定,则返回第 2 步。

我不太明白这一点:看起来,如果你在一个小范围内执行第 2 步Δ,那么您对价值函数的估计应该非常接近每个状态的最优值。

那么,为什么在政策完善后还需要再次访问呢?

似乎政策改进只是改善了政策功能,但这并不影响价值功能,所以我不确定如果政策不稳定,你为什么需要回到第 2 步。

1个回答

准确的价值函数估计和最优价值函数之间存在差异最优价值函数更具体地说是最优策略的价值函数。

值函数总是特定于某些策略,这就是为什么你会经常看到下标π在例如vπ(s)当有明确的政策时。

无论当前策略是什么,策略迭代中的策略评估步骤(步骤 2)都会收敛到准确的价值函数估计。一般来说,这不会是一个最优值函数,除非最后一次使用了第 2 步,并且在下一阶段的策略改进(第 3 步)中策略没有变化。

对于任何价值函数估计,策略改进阶段(步骤 3)只能有效地运行一次。该策略被更新为相对于步骤 2 中的价值函数是贪婪的——这将始终从相同的价值函数估计中给出相同的结果。如果价值函数是准确的,那么这个新策略保证与之前的策略一样好或更好。完成第 3 步后,只有在准确评估新策略的情况下,才有可能进一步改进。

与值迭代的比较

价值迭代的不同之处在于它永远不会准确地评估任何临时政策。在价值迭代中,每次最大化行动由于新的价值估计而改变时,隐含的策略就会改变。在后期,当最优策略已经找到并且稳定时,价值函数将收敛到最优价值函数。在值迭代中,大多数中间值函数并不准确,但当它变得准确时,它也将是最优值函数。