如何使用资格跟踪实施 REINFORCE?

人工智能 强化学习 演员批评方法 加强 资格痕迹
2021-11-07 00:03:42

下面的伪代码取自 Barto 和 Sutton 的“强化学习:介绍”。它显示了一个带有资格跟踪的actor-critic 实现。我的问题是:如果我设置λθ=1并将δ替换为即时奖励Rt,我会得到 REINFORCE 的向后实现吗?

在此处输入图像描述

0个回答
没有发现任何回复~