Sutton & Barto 书中的方程 7.3 有什么问题?

人工智能 强化学习 价值函数 萨顿巴托 期待 返回
2021-11-13 17:36:28

Sutton Barto书中 的公式 7.3 :

Equation: maxs|Eπ[Gt:t+n|St=s]vπ|γnmaxs|Vt+n1(s)vπ(s)|
where Gt:t+n=Rt+1+γRt+2+.....+γn1Rt+n+γnVt+n1(St+n)
这里Vt+n1(St+n)是估计Vπ(St+n)

但是上式的左边应该为零,因为对于任何状态 s,Gt:t+n是一个无偏估计vπ(s)因此Eπ[Gt:t+n|St=s]=vπ(s).

1个回答

一般来说,Eπ[Gt:t+n|St=s]vπ(s).vπ(s)定义为Eπ[k=0γkRt+k+1|St=s],所以当 LHS 是n步骤返回。它们只会等于n.