Sutton 和 Barto 在 2018 年版的“强化学习:简介”中在预期 SARSA(第 133 页)的背景下陈述了以下句子:
预期 SARSA 在计算上比 Sarsa 更复杂,但作为回报,它消除了由于随机选择. 鉴于相同数量的经验,我们可能会期望它的性能略好于 Sarsa,实际上它通常确实如此。
我对这个声明有三个问题:
- 为什么 Sarsa 的动作选择是随机的?是不是在政策上,因此-贪婪的?
- 因为 Expected-Sarsa 是脱离策略的,所以它从中学习的经验可以来自任何至少探索极限内所有事物的策略,例如每个动作具有相同概率的随机动作选择。Exected-Sarsa 从这样的策略中学习如何通常比正常的 Sarsa 从一个- 贪婪的政策,尤其是在经验相同的情况下?
- 可能更一般:如何以这种方式(例如通过方差)比较 on-policy 和 off-policy 算法,即使它们的概念和假设如此不同?