让我们首先尝试建立对什么的坚实理解δ方法。也许您知道所有这些,但是在我看来,无论如何都可以回顾一下。
δ←R+γv^(S′,w)−v^(S,w)
让我们从v^(S,w)学期。该术语是处于状态的价值S,由评论家在当前参数化下估计w. 这个状态值本质上是我们期望从这一点开始获得的所有奖励的折扣总和。
v^(S′,w)具有非常相似的含义,唯一的区别是它是下一个状态的值S′而不是之前的状态S. 如果我们乘以γ,并添加观察到的奖励R对此,我们得到等式右边在减号之前的部分:R+γv^(S′,w). 这基本上具有相同的含义v^(S,w)(它是对处于先前状态的价值的估计S),但这次是基于一些新观察到的信息(R) 以及对下一个状态的值的估计,而不是仅仅对整个状态的估计。
所以,δ是估计完全相同的值的两种不同方法之间的差异,其中一部分(减号的左边)被认为是一个稍微更可靠的估计,因为它基于更多一些已知正确的信息(R)。
δ如果从S到S′给予更大的回报R比评论家预期的要小,如果它小于评论家的预期,则为负数(基于当前参数化w)。
我不应该查看一些我希望最小化的目标函数的梯度吗?在本章的前面,他指出我们可以将策略的性能简单地视为它的价值函数,在这种情况下,我们所做的只是调整参数,使每个状态的价值最大化?我认为这应该通过调整政策来完成,而不是通过改变我们评估状态的方式来实现。
是的,应该这样做,这正是以下行所做的:
θ←θ+αIδ∇θlogπ(A∣S,θ)
但是,这不是我们要更新的唯一内容。
我可以理解您想通过合并有关状态值的信息(由评论家确定)来更新演员。这是通过包含上述信息的 δ 值来完成的,但我不太明白为什么它要查看状态值函数的梯度?
我们也想这样做,因为评论家应该总是对状态值给出尽可能好的估计。如果δ是非零的,这意味着我们在critic中犯了一个错误,所以我们也想更新critic以变得更准确。