我在看下图,
用 SARSA 获得的奖励更高。然而,Q learning 选择的路径最终是最优的,不是吗?如果不选择最佳路径,为什么 SARSA 奖励会更高?最佳路径和安全路径不应该都是最优路径,因为奖励会更高吗?
我在看下图,
用 SARSA 获得的奖励更高。然而,Q learning 选择的路径最终是最优的,不是吗?如果不选择最佳路径,为什么 SARSA 奖励会更高?最佳路径和安全路径不应该都是最优路径,因为奖励会更高吗?
需要注意的是,该图显示了训练期间收到的奖励。这包括由于探索性动作而产生的奖励,有时会涉及智能体从悬崖上掉下来,即使它已经确定会导致巨额惩罚。Q 学习比 SARSA 更经常这样做,因为 Q 学习的目标是学习最优贪心策略的值,而 SARSA 的目标是学习近似最优策略的值-贪婪的政策。悬崖步行设置旨在使这些政策与众不同。
该图显示,在训练期间,SARSA 在任务上的表现优于 Q 学习。如果训练期间的错误有实际代价(例如,当代理机器人从悬崖上掉下来时,有人必须不断地从地板上捡起),这可能是一个重要的考虑因素。
如果您在第 500 集之后停止训练(假设此时两个智能体都收敛到足够准确的动作值表),并根据它们的动作值使用贪婪策略运行两个智能体,那么 Q 学习每集的得分为 -13,而 SARSA每集-17会更糟。两者都会比训练期间表现更好,但 Q 学习将有最好的训练策略。
为了使 SARSA 和 Q-learning 长期等效,您需要衰减探索策略参数. 如果您在训练过程中以足够慢的速度执行此操作,最终没有探索,那么两种方法将收敛到相同的最优策略和相同的每集奖励(-13)。
添加到尼尔的回复中,虽然显示的路径是最优的,但遵循所谓的“最优路径”通常会导致次优回报,因为这个问题中的动作选择是随机的,因为- 贪婪的探索。也就是说,即使我们在悬崖区域正上方的一个街区中并且知道最好的动作是向右移动,这个动作的选择概率也只有 0.9。这会导致智能体偏离最优路径并掉入悬崖,从而导致收益最小化。
如下所示,这种效果被 SARSA 算法捕获,因为它是 on-policy。然而,在 Q-learning 中,更新是针对具有最大 Q 值的动作完成的,而不是针对所采取的实际动作。因此,由-Q-Learning 的 Q 值表中没有捕获贪婪的动作选择。
- 训练期间需要贪婪的探索,只是为了促进探索。除非价值非常小,SARSA 获得的预期回报会更高。然而,正如你可以想象的那样,在 Q-learning 中会有一些部署,其中随机性对代理有利,代理确实成功地沿着最佳路径移动,实现了最大的累积奖励。然而,多次推出的预期回报将低于 SARSA。
参考: