人工智能 - 如何使用资格跟踪实施 REINFORCE？ - 吾爱随笔录

人工智能强化学习演员批评方法加强资格痕迹

2021-11-07 00:03:42

下面的伪代码取自 Barto 和 Sutton 的“强化学习：介绍”。它显示了一个带有资格跟踪的actor-critic 实现。我的问题是：如果我设置 $\lambda^{\theta}=1$ 并将 $\delta$ 替换为即时奖励 $R_t$ ，我会得到 REINFORCE 的向后实现吗？

0个回答

没有发现任何回复~

其它你可能感兴趣的问题