我们为什么要更新WW和1μ (一个吨|小号吨)1μ(At|St)代替π(一个吨|小号吨)μ (一个吨|小号吨)π(At|St)μ(At|St)在非策略蒙特卡罗控制中?

人工智能 强化学习 蒙特卡罗方法
2021-11-11 00:28:18

当我阅读这里发布的 Sutton Bartol 的 RL 教科书时,我遇到了同样的问题。

在此处输入图像描述

我们为什么要更新W1μ(At|St)代替π(At|St)μ(At|St)?

看来,根据教科书的更新规则,无论采取什么行动μ决定选择,我们自动假设π会以 100% 的概率选择它。π对 Q 是贪婪的。这个假设有什么意义?

0个回答
没有发现任何回复~