在 Richard S. Sutton 和 Andrew G.Barto 所著的 Reinformcement Learning An Introduction 2nd Edition 一书的第 1 章中,有一句话“探索性的动作不会导致任何学习”。
这句话在图 1.1 中。
图 1.1:井字游戏的一系列动作。黑色实线代表游戏中的移动;虚线表示我们(我们的强化学习玩家)考虑过但没有做出的动作。我们的第二步是探索步,这意味着即使另一个兄弟步(导致 e⇤ 的步)排名更高,也会采取它。探索性移动不会导致任何学习,但我们的其他每一个移动都会导致更新,如红色箭头所示,其中估计值从较晚的节点向上移动到较早的节点,如文中所述。
这让我很困惑。在我的理解中,探索应该有助于几乎所有 RL 算法的学习。那么,在这种情况下,为什么书上写着“探索性的举动不会带来任何学习”呢?