人工智能 - 剪刀石头布游戏中的最优策略是什么？ - 吾爱随笔录

剪刀石头布游戏中的最优策略是什么？

人工智能强化学习博弈论最优策略

2021-10-19 05:29:50

石头剪刀布游戏中的确定性策略很容易被对手利用——通过正确的移动顺序来击败智能体。很多时候，我听说随机策略是这种情况下的最优策略——但这个论点似乎有点不正式。

有人可以对此进行解释，可能会添加更多的数学细节和直觉吗？我想我所指的案例是两个 RL 代理之间的游戏，但我也很乐意了解其他案例。谢谢！

编辑：在这种情况下，什么时候随机策略是最佳的？

1个回答

为此，我们需要博弈论。

在博弈论中，最优策略是即使对手知道你的策略也无法利用的策略。

假设您想要一种策略，其中您的移动选择不是基于以前发生的事情（因此您不是试图模仿您的对手，或者欺骗他们相信您将永远玩剪刀然后把他们扔掉，诸如此类）。策略看起来像 $(P, S, R)$ ，在哪里 $P, S, R \in [0, 1], P+S+R = 1$ . 你用概率选择纸张 $P$ , 剪刀概率 $S$ , 概率摇滚 $R$ . 现在，如果你的概率有点不均匀（例如 $(0.5, 0.2, 0.3)$ ) 对手可以滥用该策略。如果你的对手玩概率 $(p, s, r)$ ，他们的预期奖励（计算+1表示胜利，-1表示失败，0表示平局）将是 $0.5(s - r) + 0.2(r - p) + 0.3(p - s) = 0.1p + 0.2s - 0.3r$ . 如果他们希望最大化他们的胜利，他们会一直与你玩剪刀，并期望比你有明显的优势。

一般来说，对于一个策略 $(P, S, R)$ 为你和 $(p, s, r)$ 对于你的对手，你的对手的奖金将是 $P(s - r) + S(r - p) + R(p - s) = p(R-S) + s(P-R) + r(S - P)$ . 如果 this 的所有偏导数，关于 $p$ , $s$ 和 $r$ 为0，对手无法最大化自己的赢利；他们没有动力去玩一个特定的动作而不是任何其他动作。这发生在 $P = S = R = \frac13$ .

这基本上就是接近博弈论的方法：找到一种策略，让你的对手没有动力选择一个行动而不是另一个行动。这种方法一开始似乎有点违反直觉（你试图为你的对手而不是你自己找到最佳策略），但它适用于许多类似的问题。

其它你可能感兴趣的问题

上一篇上下文强盗中的上下文与强化学习中的状态之间有什么关系？下一篇为什么 TD Learning 需要马尔可夫域？