下面的伪代码取自 Barto 和 Sutton 的“强化学习:介绍”。它显示了一个带有资格跟踪的actor-critic 实现。我的问题是:如果我设置λθ=1λθ=1并将δδ替换为即时奖励RtRt,我会得到 REINFORCE 的向后实现吗?