SARSA 和 Q-Learning 何时收敛到最优 Q 值?

人工智能 强化学习 q学习 收敛 萨尔萨
2021-10-26 10:07:33

这是另一个让我有点困惑的有趣的多项选择题。

在表格 MDP 中,如果使用一个决策策略无限次访问所有状态,并且在每个状态中随机选择一个动作,则:

  1. Q-learning 将收敛到最优 Q 值
  2. SARSA 将收敛到最优 Q 值
  3. Q-learning 是学习off-policy
  4. SARSA 正在学习偏离政策

我的想法和问题:由于动作是从动作空间中随机抽取的,因此学习肯定是不合时宜的(如果我错了,请纠正我!)。所以规则 3. 和 4. 不正确。谈到前两个选项,我不太确定 Q-learning 和/或 SARSA 在这种情况下是否会收敛。我能从这个问题中理解的是,代理探索的比它利用的更多,因为它访问所有状态(无限次)并且还采取随机行动(而不是最好的行动!)。这条信息如何帮助我推断任一过程是否收敛到最佳 Q 值?

非常感谢!


资料来源:幻灯片 2/55

1个回答

真正的答案是 1 和 3。 1 因为表格 Q 学习收敛所需的条件是每个状态动作对将被无限频繁地访问,并且 Q 学习直接学习贪婪策略,π(a|s):=argmaxaQπ(s,a),并且因为 Q 学习收敛到最优 Q 值函数,我们知道策略将是最优的(因为最优策略是最优 Q 函数的贪心策略)。

3 是正确的,因为 Q 学习根据定义是一种离策略算法,因为我们在遵循一些任意策略的同时了解贪婪策略。

2 是错误的,因为 SARSA 是 on-policy,所以它将在随机策略下学习 Q 函数,而 3 是错误的,因为 SARSA 是严格的 on-policy,原因类似于为什么 Q-learning 是 off-policy。