“RL:简介”中预期的 SARSA 与 SARSA

人工智能 强化学习 萨顿巴托 萨尔萨 预期的莎莎
2021-11-01 10:25:06

Sutton 和 Barto 在 2018 年版的“强化学习:简介”中在预期 SARSA(第 133 页)的背景下陈述了以下句子:

预期 SARSA 在计算上比 Sarsa 更复杂,但作为回报,它消除了由于随机选择一个+1. 鉴于相同数量的经验,我们可能会期望它的性能略好于 Sarsa,实际上它通常确实如此。

我对这个声明有三个问题:

  1. 为什么 Sarsa 的动作选择是随机的?是不是在政策上,因此ε-贪婪的?
  2. 因为 Expected-Sarsa 是脱离策略的,所以它从中学习的经验可以来自任何至少探索极限内所有事物的策略,例如每个动作具有相同概率的随机动作选择。Exected-Sarsa 从这样的策略中学习如何通常比正常的 Sarsa 从一个ε- 贪婪的政策,尤其是在经验相同的情况下?
  3. 可能更一般:如何以这种方式(例如通过方差)比较 on-policy 和 off-policy 算法,即使它们的概念和假设如此不同?
1个回答

为什么 Sarsa 的动作选择是随机的?

政策可能是随机的。就 SARSA 而言,它是随机的,因为使用了ε-贪婪的。

它不是在策略上,因此不是 ϵ-greedy 吗?

我不太明白这个问题。SARSA 是在政策评估ε-贪婪的政策。Q-learning 是离策略评估ε-贪婪的政策。ε-greedy 只是将动作价值函数转化为策略的一种方式。

因为 Expected-Sarsa 是脱离策略的,所以它从中学习的经验可以来自任何策略......从这种策略中学习的 Exected-Sarsa 通常如何比从 ϵ-greedy 策略中学习的正常 Sarsa 更好,尤其是在相同数量的情况下经验?

比较不同性质的体验是不公平的,因为政策外体验包含的有用信息较少。因此,SARSA 和 Expected SARSA 都应该使用他们自己的政策经验进行比较。

虽然预期 SARSA 更新步骤保证减少预期 TD 误差,但 SARSA 只能在预期中实现这一点(以足够小的学习率进行多次更新)。从这个角度来看,毫无疑问,Expected SARSA 应该会更好。

可能更一般:如何以这种方式(例如通过方差)比较 on-policy 和 off-policy 算法,即使它们的概念和假设如此不同?

与上一个答案相同,在没有相同体验质量的情况下比较它们是不公平的。