我们是否需要一个明确的政策来采样一个'A′为了计算 SARSA 或 Q 学习中的目标?

人工智能 强化学习 比较 q学习 萨尔萨
2021-11-03 04:54:25

如果您能就有关 SARSA 和 Q-learning 目标的问题指出正确的方向,我将不胜感激(符号:S是当前状态,A是当前动作,R是奖励,S是下一个状态并且A是从下一个状态中选择的动作)。

我们是否需要一个明确的策略来让 Q-learning 目标进行采样A从?而对于 SARSA 呢?

我想这对于 Q 学习来说是正确的,因为我们需要获得最大 Q 值来确定哪个动作A我们将用于更新。对于 SARSA,我们更新Q(S,A)取决于实际采取的行动(不需要最大值)。如果我错了,请纠正我。

1个回答

Q-learning 使用探索性策略,从当前估计的Q功能,例如ϵ-贪婪策略,选择动作a从目前的状态s. 采取此行动后as, 奖励r和下一个状态s被观察到。此时,更新估计值Q函数,你使用一个假设贪婪动作是从下一个状态开始的目标s. 贪心动作由max运算符,因此可以将其视为隐式策略(但此术语并不常见,AFAIK),因此,在这种情况下,贪婪动作是与最高Q国家价值s.

在 SARSA 中,没有max运算符被使用,并且您派生出一个策略(例如ϵ-贪婪政策)从目前的估计Q选择两者的功能a(从s) 和a(从s)。

总而言之,在所有情况下,这些政策都是隐含的,因为它们是从对Q函数,但这不是一个通用术语。另请参阅此答案,其中我更详细地描述了 Q-learning 和 SARSA 之间的差异,并且我还展示了这两种算法的伪代码,您应该阅读(多次)以充分理解它们的差异。