剪刀石头布游戏中的最优策略是什么?

人工智能 强化学习 博弈论 最优策略
2021-10-19 05:29:50

石头剪刀布游戏中的确定性策略很容易被对手利用——通过正确的移动顺序来击败智能体。很多时候,听说随机策略是这种情况下的最优策略——但这个论点似乎有点不正式。

有人可以对此进行解释,可能会添加更多的数学细节和直觉吗?我想我所指的案例是两个 RL 代理之间的游戏,但我也很乐意了解其他案例。谢谢!

编辑:在这种情况下,什么时候随机策略是最佳的?

1个回答

为此,我们需要博弈论。

在博弈论中,最优策略是即使对手知道你的策略也无法利用的策略

假设您想要一种策略,其中您的移动选择不是基于以前发生的事情(因此您不是试图模仿您的对手,或者欺骗他们相信您将永远玩剪刀然后把他们扔掉,诸如此类)。策略看起来像(P,S,R), 在哪里P,S,R[0,1],P+S+R=1. 你用概率选择纸张P, 剪刀概率S, 概率摇滚R. 现在,如果你的概率有点不均匀(例如(0.5,0.2,0.3)) 对手可以滥用该策略。如果你的对手玩概率(p,s,r),他们的预期奖励(计算+1表示胜利,-1表示失败,0表示平局)将是0.5(sr)+0.2(rp)+0.3(ps)=0.1p+0.2s0.3r. 如果他们希望最大化他们的胜利,他们会一直与你玩剪刀,并期望比你有明显的优势。

一般来说,对于一个策略(P,S,R)为你和(p,s,r)对于你的对手,你的对手的奖金将是P(sr)+S(rp)+R(ps)=p(RS)+s(PR)+r(SP). 如果 this 的所有偏导数,关于p,sr为0,对手无法最大化自己的赢利;他们没有动力去玩一个特定的动作而不是任何其他动作。这发生在P=S=R=13.

这基本上就是接近博弈论的方法:找到一种策略,让你的对手没有动力选择一个行动而不是另一个行动。这种方法一开始似乎有点违反直觉(你试图为你的对手而不是你自己找到最佳策略),但它适用于许多类似的问题。