人工智能 - 为什么“探索性的举动不会带来任何学习”？ - 吾爱随笔录

在 Richard S. Sutton 和 Andrew G.Barto 所著的 Reinformcement Learning An Introduction 2nd Edition 一书的第 1 章中，有一句话“探索性的动作不会导致任何学习”。

这句话在图 1.1 中。

图 1.1：井字游戏的一系列动作。黑色实线代表游戏中的移动；虚线表示我们（我们的强化学习玩家）考虑过但没有做出的动作。我们的第二步是探索步，这意味着即使另一个兄弟步（导致 e⇤ 的步）排名更高，也会采取它。探索性移动不会导致任何学习，但我们的其他每一个移动都会导致更新，如红色箭头所示，其中估计值从较晚的节点向上移动到较早的节点，如文中所述。

这让我很困惑。在我的理解中，探索应该有助于几乎所有 RL 算法的学习。那么，在这种情况下，为什么书上写着“探索性的举动不会带来任何学习”呢？