Sutton Barto书中 的公式 7.3 :Equation: maxs|Eπ[Gt:t+n|St=s]−vπ|≤γnmaxs|Vt+n−1(s)−vπ(s)|Equation: maxs|Eπ[Gt:t+n|St=s]−vπ|≤γnmaxs|Vt+n−1(s)−vπ(s)| where Gt:t+n=Rt+1+γRt+2+.....+γn−1Rt+n+γnVt+n−1(St+n)where Gt:t+n=Rt+1+γRt+2+.....+γn−1Rt+n+γnVt+n−1(St+n) 这里Vt+n−1(St+n)Vt+n−1(St+n)是估计Vπ(St+n)Vπ(St+n)
但是上式的左边应该为零,因为对于任何状态 s,Gt:t+nGt:t+n是一个无偏估计vπ(s)vπ(s)因此Eπ[Gt:t+n|St=s]=vπ(s)Eπ[Gt:t+n|St=s]=vπ(s).
一般来说,Eπ[Gt:t+n|St=s]≠vπ(s)Eπ[Gt:t+n|St=s]≠vπ(s).vπ(s)vπ(s)定义为Eπ[∑∞k=0γkRt+k+1|St=s]Eπ[∑k=0∞γkRt+k+1|St=s],所以当 LHS 是nn步骤返回。它们只会等于n→∞n→∞.