可以TD(λλ) 与深度强化学习一起使用?

人工智能 强化学习 深度学习 时差法 资格痕迹 td-λ
2021-11-17 03:00:20

TD lambda是一种在 TD(0) 之间进行插值的方法 - 在单个步骤上自举,以及 TD(max),在整个剧集长度上自举,或蒙特卡洛。

阅读上面的链接,我看到每个州都保留了资格跟踪,以计算其“对未来的贡献”。

但是,如果我们使用近似器,而不是状态值表,那么我们还能使用资格迹吗?如果是这样,如何计算损失(以及梯度)?具体来说,我想使用actor-critic(或优势actor-critic)。

1个回答

资格跟踪是一种在时间差异“目标”和蒙特卡洛“回报”之间加权的方法。例如,在实践中,不是使用一步式 TD 目标,而是rt+γV(st+1),如在时间差更新中V(st)V(st)+α(rt+γV(st+1)V(st)),你使用所谓的“lambda”(λ) 目标,这是一个平衡 TD 目标和蒙特卡洛收益的目标。因此,在实践中和直观上,资格跟踪只是在学习时使用更“合适”的目标的一种方式。通常,您需要“在线”执行这些更新(例如,上面的 TD 更新),即在您探索或利用环境时。

理论上,您可以使用深度神经网络来表示您的价值函数(或您的策略),同时使用资格跟踪。这类似于不使用它们:您只需使用不同的目标。

然而,深度 RL(即使用深度神经网络来表示例如值函数的 RL)训练需要使用 iid 数据进行,以防止过度拟合,这通常意味着它们无法在线训练或需要使用像“经验回放”这样的“技巧”(用于通过深度强化学习进行人类水平控制的论文)。请注意,在 RL 中,连续状态通常非常相关(例如,视频的两个连续帧将非常相关)。

理论上和类似地,您仍然可以使用actor-critic 方法使用资格跟踪,但不能使用异步优势actor-critic 方法。有关更多信息,请参阅 Brett Daley 和 Christopher Amato 的论文“ Efficient Eligibility Traces for Deep Reinforcement Learning ”(2018 年)的第 2.3 节。

在同一篇论文中,引入了一种方法来有效地将资格跟踪与深度神经网络相结合。作者提出 DQN(λ),这是结合资格跟踪的 DQN 架构,其中λreturn 以“有效”(和递归)方式计算,而不是“通常”方式。由于他们使用 DQN,他们还使用“体验重播”缓冲区(或内存),他们还存储有效计算的λ目标(除了通常的奖励)。此外,它们还消除了对标准 DQN 中使用的“目标”网络的需求。您可以查看同一篇论文的算法 1,了解它们如何改进网络的参数,该参数代表 Q 函数,在 DQN(λ) 模型。有关此模型的更多详细信息,请参阅同一篇论文的第 3.1 节。

他们还介绍了 A3C(λ),它将异步优势参与者-评论家 (A3C) 与资格跟踪相结合。有关详细信息,请参阅第 3.2 节。

请注意,还有其他将资格跟踪与深度学习相结合的建议。你可以看看文献。