π(s)并不意味着q(s,a)这里。π(s)是一种策略,表示特定状态在动作空间上的概率分布。q(s,a)是一个状态-动作对价值函数,它告诉我们通过采取行动期望获得多少奖励a处于状态s向前。
对于具有此更新公式的右侧的值迭代:
v(s)←maxa∑s′p(s′∣s,a)[r(s,a,s′)+γv(s′)]
我们有一个更新状态值的隐式贪婪确定性策略s基于给我们最大预期回报的贪婪行为。当值迭代基于贪婪行为收敛到它的值后n迭代我们可以得到明确的最优策略:
π(s)=argmaxa∑s′p(s′∣s,a)[r(s,a,s′)+γv(s′)]
在这里,我们基本上是说对状态具有最高期望奖励的动作s概率为 1,动作空间中所有其他动作的概率为 0
对于左侧使用此更新公式的策略评估:
v(s)←∑s′p(s′∣s,π(s))[r(s,π(s),s′)+γv(s′)]
我们有明确的政策π在一般情况下,一开始并不贪婪。该策略通常是随机初始化的,因此它所采取的行动不会是贪婪的,这意味着我们可以从采取一些非常糟糕的行动的政策开始。它也不需要是确定性的,但我想在这种情况下它是确定性的。这里我们正在更新状态值s根据现行政策π.
在策略评估步骤运行后n迭代我们从策略改进步骤开始:
π(s)=argmaxa∑s′p(s′∣s,a)[r(s,a,s′)+γv(s′)]
在这里,我们根据通过策略评估步骤获得的状态值贪婪地更新我们的策略。可以保证我们的策略会改进,但不能保证我们的策略仅在一个策略改进步骤之后就会是最优的。在改进步骤之后,我们对新的改进策略进行评估步骤,然后我们再次进行改进步骤,依此类推,直到我们收敛到最优策略