这是另一个让我有点困惑的有趣的多项选择题。
在表格 MDP 中,如果使用一个决策策略无限次访问所有状态,并且在每个状态中随机选择一个动作,则:
- Q-learning 将收敛到最优 Q 值
- SARSA 将收敛到最优 Q 值
- Q-learning 是学习off-policy
- SARSA 正在学习偏离政策
我的想法和问题:由于动作是从动作空间中随机抽取的,因此学习肯定是不合时宜的(如果我错了,请纠正我!)。所以规则 3. 和 4. 不正确。谈到前两个选项,我不太确定 Q-learning 和/或 SARSA 在这种情况下是否会收敛。我能从这个问题中理解的是,代理探索的比它利用的更多,因为它访问所有状态(无限次)并且还采取随机行动(而不是最好的行动!)。这条信息如何帮助我推断任一过程是否收敛到最佳 Q 值?
非常感谢!
资料来源:幻灯片 2/55