石头剪刀布游戏中的确定性策略很容易被对手利用——通过正确的移动顺序来击败智能体。很多时候,我听说随机策略是这种情况下的最优策略——但这个论点似乎有点不正式。
有人可以对此进行解释,可能会添加更多的数学细节和直觉吗?我想我所指的案例是两个 RL 代理之间的游戏,但我也很乐意了解其他案例。谢谢!
编辑:在这种情况下,什么时候随机策略是最佳的?
石头剪刀布游戏中的确定性策略很容易被对手利用——通过正确的移动顺序来击败智能体。很多时候,我听说随机策略是这种情况下的最优策略——但这个论点似乎有点不正式。
有人可以对此进行解释,可能会添加更多的数学细节和直觉吗?我想我所指的案例是两个 RL 代理之间的游戏,但我也很乐意了解其他案例。谢谢!
编辑:在这种情况下,什么时候随机策略是最佳的?
为此,我们需要博弈论。
在博弈论中,最优策略是即使对手知道你的策略也无法利用的策略。
假设您想要一种策略,其中您的移动选择不是基于以前发生的事情(因此您不是试图模仿您的对手,或者欺骗他们相信您将永远玩剪刀然后把他们扔掉,诸如此类)。策略看起来像, 在哪里. 你用概率选择纸张, 剪刀概率, 概率摇滚. 现在,如果你的概率有点不均匀(例如) 对手可以滥用该策略。如果你的对手玩概率,他们的预期奖励(计算+1表示胜利,-1表示失败,0表示平局)将是. 如果他们希望最大化他们的胜利,他们会一直与你玩剪刀,并期望比你有明显的优势。
一般来说,对于一个策略为你和对于你的对手,你的对手的奖金将是. 如果 this 的所有偏导数,关于,和为0,对手无法最大化自己的赢利;他们没有动力去玩一个特定的动作而不是任何其他动作。这发生在.
这基本上就是接近博弈论的方法:找到一种策略,让你的对手没有动力选择一个行动而不是另一个行动。这种方法一开始似乎有点违反直觉(你试图为你的对手而不是你自己找到最佳策略),但它适用于许多类似的问题。