人工智能 - 我们为什么要更新WW和1μ (一个吨|小号吨)1μ(At|St)代替π(一个吨|小号吨)μ (一个吨|小号吨)π(At|St)μ(At|St)在非策略蒙特卡罗控制中？ - 吾爱随笔录

人工智能强化学习蒙特卡罗方法

2021-11-11 00:28:18

当我阅读这里发布的 Sutton Bartol 的 RL 教科书时，我遇到了同样的问题。

我们为什么要更新 $W$ 和 $\frac{1}{\mu (A_t | S_t)}$ 代替 $\frac{\pi (A_t | S_t)}{\mu (A_t | S_t)}$ ?

看来，根据教科书的更新规则，无论采取什么行动 $\mu$ 决定选择，我们自动假设 $\pi$ 会以 100% 的概率选择它。但 $\pi$ 对 Q 是贪婪的。这个假设有什么意义？

0个回答

没有发现任何回复~

其它你可能感兴趣的问题