为什么 GLIE Monte-Carlo 控制是一个 on-policy 控制?
人工智能
强化学习
控制问题
策略方法
蒙特卡罗方法
2021-11-04 10:33:44
1个回答
在这种情况下,一直是一个-贪婪的政策。在每次迭代中,这用于生成 (-贪婪地)新的轨迹计算值。“伪代码”中的最后一行告诉您该策略将是一个新的-下一次迭代中的贪婪策略。由于改进的策略和采样的策略相同,因此学习方法被认为是一种on-policy方法。
如果最后一行是,这将是一种脱离策略的方法。
其它你可能感兴趣的问题