我想过一种稍微扭曲标准 Q 学习的算法,但我不确定是否可以保证收敛到最优 Q 值。
该算法从一个初始策略开始。在每个情节中,算法都会进行策略评估并且不会更新策略。情节完成后,使用基于当前学习的 Q 值的贪婪策略更新策略。然后重复该过程。我将算法附在图片上。
只是为了强调更新策略在每一集中都不会改变。每个状态的策略在一个情节完成后使用 Q 表进行更新。
有人见过这种Q-learning吗?如果是这样,请您指导我获取有关融合的一些资源吗?谢谢!