如何克服强化学习中对单人游戏风格的过度拟合?

人工智能 强化学习 过拟合
2021-10-20 18:24:05

我正在实施一个演员评论家强化学习算法来赢得一个像井字游戏一样的两人游戏。代理针对最小-最大玩家进行训练,经过若干集后能够学习一组规则,使其赢得大部分游戏。

然而,一旦我使用稍微不同的打法与训练有素的特工交手,它就会惨败。换句话说,很明显,agent 对 min-max 玩家的确定性行为过度拟合。我很清楚问题的根源是什么,但我想大致了解可用于克服(或缓解)此问题的不同方法。

我想尝试的两种解决方案如下:
1. 用不同的对手训练代理,每个人都固定数量的剧集(或时间)。例如,我在前 10000 集使用深度为 2 的最小最大播放器来训练代理,然后在接下来的 10000 集使用随机播放代理,然后在其他 10000 集使用深度为 4 的最小最大播放器并重复该过程。
2. 从不同的初始配置开始剧集。通过这种方式,代理将玩更广泛的样本游戏,并且代理将更难以过度拟合。

这两种方法合理吗?还有其他技巧/好的做法可以尝试吗?

1个回答

您建议的两种解决方案似乎都是围绕这样一种直觉构建的,即确保您为 RL 算法提供的体验有足够的多样性是很好的。

这种直觉很好,但它不应该(太多)牺牲对手的实力。恐怕您的第一个解决方案可能会因此而崩溃;Tic Tac Toe 是一款如此简单的游戏,任何不能以最佳方式玩的智能体都可以被视为非常糟糕的智能体……而且我认为搜索深度限制非常低的极小极大智能体最终可能会表现不佳。在这方面,您的第二个解决方案似乎更好,这可能会有所帮助。

对于这个井字游戏的特殊情况,我怀疑你应该能够只针对最优的极小极大智能体进行很好的训练,只要你确保那些最优的极小极大智能体随机打破关系。在某些情况下,可能有多个不同的动作都是“同样最优的”。然后,您需要确保您的极小极大代理随机打破关系,而不是总是确定性地选择相同的动作。例如,这可以通过确保在生成合法移动列表后始终以最小最大移动列表进行洗牌。