为什么 GLIE Monte-Carlo 控制是一个 on-policy 控制?

人工智能 强化学习 控制问题 策略方法 蒙特卡罗方法
2021-11-04 10:33:44

“强化学习”课程第 5 讲的幻灯片 16中,David Silver 介绍了GLIE 蒙特卡罗控制

在此处输入图像描述

但为什么它是一个政策控制?抽样遵循政策π而改进遵循ϵ- 贪婪的政策,所以它不是一种非政策控制吗?

1个回答

在这种情况下,π一直是一个ϵ-贪婪的政策。在每次迭代中,这π用于生成 (ϵ-贪婪地)新的轨迹Q(s,a)计算值。“伪代码”中的最后一行告诉您该策略π将是一个新的ϵ-下一次迭代中的贪婪策略。由于改进的策略和采样的策略相同,因此学习方法被认为是一种on-policy方法。

如果最后一行是μϵ-greedy(Q),这将是一种脱离策略的方法。