在Learning by Playing-Solving Sparse Reward Tasks from Scratch一文的第4.3节中,作者将Retrace定义为
我省略的地方为简单起见。我对的定义很困惑,这似乎与Safe and efficcient off-policy 强化学习中定义的 Retrace 不一致:
我应该怎么做在第一篇论文中?
在Learning by Playing-Solving Sparse Reward Tasks from Scratch一文的第4.3节中,作者将Retrace定义为
我省略的地方为简单起见。我对的定义很困惑,这似乎与Safe and efficcient off-policy 强化学习中定义的 Retrace 不一致:
我应该怎么做在第一篇论文中?