为什么回溯的定义不一致?

人工智能 强化学习 q学习 文件 回溯
2021-10-22 14:58:20

在Learning by Playing-Solving Sparse Reward Tasks from Scratch一文的第4.3节中,作者将Retrace定义为

Qret=j=i(γjik=ijck)[r(sj,aj)+δQ(si,sj)],δQ(si,sj)=Eπθ(a|s)[Qπ(si,;ϕ)]Qπ(sj,aj;ϕ)ck=min(1,πθ(ak|sk)b(ak|sk))
我省略的地方T为简单起见。我对的定义很困惑Qret,这似乎与Safe and efficcient off-policy 强化学习中定义的 Retrace 不一致

RQ(x,a):=Q(x,a)+Eμ[t0γt(s=1tcs)(rt+γEπQ(xt+1,)Q(xt,at)]

我应该怎么做Qret在第一篇论文中?

0个回答
没有发现任何回复~