延迟策略更新 Q-learning 的收敛

人工智能 强化学习 q学习 收敛
2021-11-03 00:25:10

我想过一种稍微扭曲标准 Q 学习的算法,但我不确定是否可以保证收敛到最优 Q 值。

该算法从一个初始策略开始。在每个情节中,算法都会进行策略评估并且不会更新策略。情节完成后,使用基于当前学习的 Q 值的贪婪策略更新策略。然后重复该过程。我将算法附在图片上。

只是为了强调更新策略在每一集中都不会改变。每个状态的策略在一个情节完成后使用 Q 表进行更新。

有人见过这种Q-learning吗?如果是这样,请您指导我获取有关融合的一些资源吗?谢谢!

在此处输入图像描述

0个回答
没有发现任何回复~