我正在实施一个演员评论家强化学习算法来赢得一个像井字游戏一样的两人游戏。代理针对最小-最大玩家进行训练,经过若干集后能够学习一组规则,使其赢得大部分游戏。
然而,一旦我使用稍微不同的打法与训练有素的特工交手,它就会惨败。换句话说,很明显,agent 对 min-max 玩家的确定性行为过度拟合。我很清楚问题的根源是什么,但我想大致了解可用于克服(或缓解)此问题的不同方法。
我想尝试的两种解决方案如下:
1. 用不同的对手训练代理,每个人都固定数量的剧集(或时间)。例如,我在前 10000 集使用深度为 2 的最小最大播放器来训练代理,然后在接下来的 10000 集使用随机播放代理,然后在其他 10000 集使用深度为 4 的最小最大播放器并重复该过程。
2. 从不同的初始配置开始剧集。通过这种方式,代理将玩更广泛的样本游戏,并且代理将更难以过度拟合。
这两种方法合理吗?还有其他技巧/好的做法可以尝试吗?