自我游戏井字游戏中的 Q 值会是什么样子?

人工智能 深度学习 强化学习 q学习 组合游戏 自我游戏
2021-11-04 12:44:36

这对应于RLBook的练习 1.1 ,并从这里开始讨论。考虑两个奖励计划-

  • 赢 = +1,平局 = 0,输 = -1
  • 赢 = +1,平局或输球 = 0

我们能谈谈最佳 Q 值吗?

1个回答

Sutton & Barto 的第 1 章,并没有介绍完整版的 Q 学习,你可能不会在那个阶段解释完整的值分布。

您可能会注意到,可能的下一个状态中的最大 Q 值 - 在训练/收敛之后 - 应该代表智能体的最佳移动选择。实际的最佳值是多少取决于对手的打法。在自我博弈中,有可能在博弈中为双方玩家找到最佳博弈,因此 Q 值代表真正的最优博弈。但是,“最佳游戏”的含义取决于您为代理设定的目标,奖励值隐含。

任何能够保证玩家无论对手做什么都可以强行获胜的动作,其 Q 值为 +1。如果代理或对手最多只能强制平局,那么它将具有平局的 Q 值,如果对手可以强制获胜(即当前代理将失败),则该移动将具有 a 的 Q 值损失。发生这种情况是因为学习过程将最佳案例值从最终游戏状态向后复制到导致它们的早期游戏状态。

在有两个完美玩家和 +1、0、-1 奖励系统的游戏中,每个玩家将轮流看到可用的 0 和 -1 动作。那是因为在井字游戏中没有办法强制获胜,而完美的对手总是会采取行动阻止获胜的动作。0 或 -1 中的最佳选择是 0:每个玩家在按照其价值估计行事时,将强制平局。将定义具有 +1 值的状态,但它们永远不会作为任何玩家的选择出现。

如果你在抽奖和输球之间没有区别奖励会发生什么?在赢 +1、输或平 0 对抗完美对手的极端情况下,代理的所有可用 Q 值将始终为 0。然后代理将面临无法在强制平局的防守战术之间做出选择以及让对手获胜的失误。反过来,这意味着对手有一定的获胜机会,即使智能体已经学会了最佳发挥。

当两个智能体使用 +1、0、0 奖励方案通过自我游戏学习时,情况会变得更加复杂。那是因为对手的行为是Q值体系的一部分。有些位置会让对手有更多的机会犯错,得分更高。让对手强行获胜的错误实际上会得分更差,因为一​​旦对手确定了+1分的路线,就不会犯错误。因此,即使智能体显然无法区分输与平,它仍应至少部分学会避免损失。事实上,如果不进行实验,我不确定这是否足以仍然学习最佳游戏。

直觉上,我认为 +1,0,0 智能体仍然有可能学习最佳游戏,尽管可能比 +1,0,-1 系统更慢,因为任何给对手获胜机会的情况都会允许它选择得分最高的移动,减少到达那里的移动的第一个代理得分 - 这种差异将备份到更早的位置。但是,如上所述,学习会变得不稳定,因为对于完美的对手,差异会消失,因为所有最佳选择都是平局或失败,并且代理将再次开始犯错误。