考虑一些没有终端状态的 MDP。我们可以应用引导方法(如 TD(0))在这些情况下学习没有问题,但在只有简单的蒙特卡罗更新的策略梯度算法中,它需要我们提供完整的轨迹(没有终端状态这是不可能的) )。
自然地,可以让 MDP 运行 1000 个周期,然后作为近似值终止。如果我们将这些轨迹输入到蒙特卡洛更新中,我想时间段 t=1,2,...,100 的样本会因为折扣因子而对价值函数给出非常好的估计。但是,在时间段 997、998、999、1000 中,由于接近 1000 的截止点,我们对这些轨迹的期望值与 V(s) 相差甚远。
问题是这样的:
- 当我们更新我们的函数逼近时,我们是否应该包括这些后来出现的数据点?
或者
- 是否假设这些点在我们的更新中变得非常稀疏,所以它们对我们的训练没有太大影响?
或者
- 通常是否暗示轨迹中的最终数据奖励在这些情况下是自举的(即,在这种情况下,我们有一些类似 TD(0) 的行为)?
或者
- 由于这个问题,策略梯度算法的蒙特卡罗更新是否甚至适用于非终止 MDP?