如果您能就有关 SARSA 和 Q-learning 目标的问题指出正确的方向,我将不胜感激(符号:是当前状态,是当前动作,是奖励,是下一个状态并且是从下一个状态中选择的动作)。
我们是否需要一个明确的策略来让 Q-learning 目标进行采样从?而对于 SARSA 呢?
我想这对于 Q 学习来说是正确的,因为我们需要获得最大 Q 值来确定哪个动作我们将用于更新。对于 SARSA,我们更新取决于实际采取的行动(不需要最大值)。如果我错了,请纠正我。
如果您能就有关 SARSA 和 Q-learning 目标的问题指出正确的方向,我将不胜感激(符号:是当前状态,是当前动作,是奖励,是下一个状态并且是从下一个状态中选择的动作)。
我们是否需要一个明确的策略来让 Q-learning 目标进行采样从?而对于 SARSA 呢?
我想这对于 Q 学习来说是正确的,因为我们需要获得最大 Q 值来确定哪个动作我们将用于更新。对于 SARSA,我们更新取决于实际采取的行动(不需要最大值)。如果我错了,请纠正我。
Q-learning 使用探索性策略,从当前估计的功能,例如-贪婪策略,选择动作从目前的状态. 采取此行动后从, 奖励和下一个状态被观察到。此时,更新估计值函数,你使用一个假设贪婪动作是从下一个状态开始的目标. 贪心动作由运算符,因此可以将其视为隐式策略(但此术语并不常见,AFAIK),因此,在这种情况下,贪婪动作是与最高国家价值.
在 SARSA 中,没有运算符被使用,并且您派生出一个策略(例如-贪婪政策)从目前的估计选择两者的功能(从) 和(从)。
总而言之,在所有情况下,这些政策都是隐含的,因为它们是从对函数,但这不是一个通用术语。另请参阅此答案,其中我更详细地描述了 Q-learning 和 SARSA 之间的差异,并且我还展示了这两种算法的伪代码,您应该阅读(多次)以充分理解它们的差异。