SARSA 和 Q Learning 都是以类似方式工作的强化学习算法。最显着的区别是 SARSA 在策略上,而 Q Learning 不在策略上。更新规则如下:
问学习:
沙萨:
其中和r_t时间步是折扣因子。
除了在 SARSA 中我们采取实际行动而在 Q Learning 中我们采取最高奖励的行动之外,它们看起来几乎相同。
是否存在任何理论或实践设置,其中一个应该比另一个更喜欢?我可以看到,在 Q Learning 中最大化可能会很昂贵,在连续行动空间中更是如此。但是还有别的吗?