资格跟踪和 epsilon-greedy 是否以不同的方式完成相同的任务?

人工智能 强化学习 比较 探索-开发-权衡 epsilon-贪婪策略 资格痕迹
2021-11-13 05:34:58

我知道,在强化学习算法(例如Q-learning)中,为了防止选择具有最大 q 值的动作过快并允许探索,我们使用资格跟踪。

这里有一些问题

  1. ε-greedy 解决同样的问题?

  2. 这两种方法是否旨在实现相同的目标?

  3. 各有什么优势?

1个回答

Epsilon-greedy 是一种让代理探索状态空间以确保代理不会满足于次优策略的方法。通过采取随机行动,即使概率很小,代理也可以到达它通常看不到的状态空间中的位置,并且如果结果比它通常看到的更好,它可以修改其价值函数(或 Q 函数)用于该状态(或动作),以确保将来采取该动作。Epsilon-greedy 方法的替代方法是直接使用 Policy Gradient 方法修改策略。

资格跟踪试图解决不同的问题。它们的功能是对最近访问过的状态进行短期记忆。他们统一并概括了 TD 和 Monte Carlo 方法,产生了一系列方法,这些方法跨越了一端具有 Monte Carlo 方法的频谱(λ=1) 和另一步的 TD 方法 (λ=0)。使用迹线,可以保留先前状态的特征,但取决于选择的λ. 选择一个低γ(靠近0) 使痕迹近视,因为痕迹很快就会到达0. 如果一个更大的λ被使用(近1) 痕迹停留的时间更长,可以帮助代理确定两个相同状态之间的差异。

有关更多信息,请查看强化学习:简介,第 2 章(第 30 页介绍ε-贪婪方法)和第 12 章(资格跟踪)。