我知道,在强化学习算法(例如Q-learning)中,为了防止选择具有最大 q 值的动作过快并允许探索,我们使用资格跟踪。
这里有一些问题
做-greedy 解决同样的问题?
这两种方法是否旨在实现相同的目标?
各有什么优势?
我知道,在强化学习算法(例如Q-learning)中,为了防止选择具有最大 q 值的动作过快并允许探索,我们使用资格跟踪。
这里有一些问题
做-greedy 解决同样的问题?
这两种方法是否旨在实现相同的目标?
各有什么优势?
Epsilon-greedy 是一种让代理探索状态空间以确保代理不会满足于次优策略的方法。通过采取随机行动,即使概率很小,代理也可以到达它通常看不到的状态空间中的位置,并且如果结果比它通常看到的更好,它可以修改其价值函数(或 Q 函数)用于该状态(或动作),以确保将来采取该动作。Epsilon-greedy 方法的替代方法是直接使用 Policy Gradient 方法修改策略。
资格跟踪试图解决不同的问题。它们的功能是对最近访问过的状态进行短期记忆。他们统一并概括了 TD 和 Monte Carlo 方法,产生了一系列方法,这些方法跨越了一端具有 Monte Carlo 方法的频谱() 和另一步的 TD 方法 ()。使用迹线,可以保留先前状态的特征,但取决于选择的. 选择一个低(靠近) 使痕迹近视,因为痕迹很快就会到达. 如果一个更大的被使用(近) 痕迹停留的时间更长,可以帮助代理确定两个相同状态之间的差异。
有关更多信息,请查看强化学习:简介,第 2 章(第 30 页介绍-贪婪方法)和第 12 章(资格跟踪)。