为什么 Q-learning 在 100% 的探索率下会收敛?
人工智能
强化学习
q学习
收敛
epsilon-贪婪策略
探索策略
2021-10-30 05:50:26
1个回答
Q-learning 在一些温和的条件下保证收敛(在表格的情况下),其中之一是在限制中我们无限次访问每个状态动作元组。如果您的随机随机策略(即 100% 探索)保证这一点并且满足其他条件(它们可能是),那么 Q-learning 将收敛。
不同的状态-动作对具有更长的箭头,即更高的 Q 值的原因仅仅是因为处于该状态-动作对的价值更高。一个例子是奖杯正上方的箭头——显然这具有最高的 Q 值,因为返回值为 1。对于所有其他状态,它将是对于一些-- 要看到这一点,请记住 Q 值定义为
所以对于任何不是带有向下箭头的奖杯上方的块的状态-动作对将是总和的加号在哪里是您最终到达奖杯的时间(假设您为到达奖杯给予 1 的奖励)。