当我阅读这里发布的 Sutton Bartol 的 RL 教科书时,我遇到了同样的问题。
我们为什么要更新和代替?
看来,根据教科书的更新规则,无论采取什么行动决定选择,我们自动假设会以 100% 的概率选择它。但对 Q 是贪婪的。这个假设有什么意义?
当我阅读这里发布的 Sutton Bartol 的 RL 教科书时,我遇到了同样的问题。
我们为什么要更新和代替?
看来,根据教科书的更新规则,无论采取什么行动决定选择,我们自动假设会以 100% 的概率选择它。但对 Q 是贪婪的。这个假设有什么意义?