为什么 Q-learning 在 100% 的探索率下会收敛?

人工智能 强化学习 q学习 收敛 epsilon-贪婪策略 探索策略
2021-10-30 05:50:26

我正在做这个任务,我让代理通过 Q 学习和 100% 的探索率学习状态动作值(Q 值)。环境是经典的网格世界,如下图所示。

在此处输入图像描述

这是我的参数值。

  • 学习率 = 0.1
  • 折扣系数 = 0.95
  • 默认奖励 = 0

到达奖杯是最终的奖励,不会因为撞墙或迈出一步而给予负面奖励。

500集之后,箭矢汇合了。如图所示,一些状态的箭头比其他状态更长(即,更大的 Q 值)。为什么会这样?我不明白当探索率为 100% 时,agent 如何学习并找到最佳动作和状态(每个动作:NSEW 有 25% 的机会被选中)

1个回答

Q-learning 在一些温和的条件下保证收敛(在表格的情况下),其中之一是在限制中我们无限次访问每个状态动作元组。如果您的随机随机策略(即 100% 探索)保证这一点并且满足其他条件(它们可能是),那么 Q-learning 将收敛。

不同的状态-动作对具有更长的箭头,即更高的 Q 值的原因仅仅是因为处于该状态-动作对的价值更高。一个例子是奖杯正上方的箭头——显然这具有最高的 Q 值,因为返回值为 1。对于所有其他状态,它将是γk对于一些k-- 要看到这一点,请记住 Q 值定义为

Q(s,a)=Eπ[j=0γjRt+j+1|St=s,At=a];
所以对于任何不是带有向下箭头的奖杯上方的块的状态-动作对j=0γjRt+j+1将是总和0的加号γT在哪里T是您最终到达奖杯的时间(假设您为到达奖杯给予 1 的奖励)。