如果政策不稳定,为什么要在政策完善后重新进行政策评估?
人工智能
强化学习
价值迭代
政策迭代
政策评估
政策改进
2021-10-20 04:29:09
1个回答
准确的价值函数估计和最优价值函数之间存在差异。最优价值函数更具体地说是最优策略的价值函数。
值函数总是特定于某些策略,这就是为什么你会经常看到下标在例如当有明确的政策时。
无论当前策略是什么,策略迭代中的策略评估步骤(步骤 2)都会收敛到准确的价值函数估计。一般来说,这不会是一个最优值函数,除非最后一次使用了第 2 步,并且在下一阶段的策略改进(第 3 步)中策略没有变化。
对于任何价值函数估计,策略改进阶段(步骤 3)只能有效地运行一次。该策略被更新为相对于步骤 2 中的价值函数是贪婪的——这将始终从相同的价值函数估计中给出相同的结果。如果价值函数是准确的,那么这个新策略保证与之前的策略一样好或更好。完成第 3 步后,只有在准确评估新策略的情况下,才有可能进一步改进。
与值迭代的比较
价值迭代的不同之处在于它永远不会准确地评估任何临时政策。在价值迭代中,每次最大化行动由于新的价值估计而改变时,隐含的策略就会改变。在后期,当最优策略已经找到并且稳定时,价值函数将收敛到最优价值函数。在值迭代中,大多数中间值函数并不准确,但当它变得准确时,它也将是最优值函数。
其它你可能感兴趣的问题
