机器算法验证 - Sutton 的强化学习，井字游戏自我游戏 - 吾爱随笔录

机器算法验证强化学习

2022-03-16 11:45:52

我刚开始阅读 Sutton 和 Barto 的书《强化学习：简介》，很好奇如何思考练习 1.1：自我游戏的答案。假设上述强化学习算法不是与随机对手对抗，而是与自己对抗。你认为在这种情况下会发生什么？它会学习不同的演奏方式吗？

人们也可以想到以下相关的子问题，但它们并没有使我的想法更加清晰。

1个回答

我不确定第一个问题。关于第二个，我的想法是：

如果考虑井字棋的状态空间，它可以划分为两个互斥的子集，一个由代理在第一次玩时看到的状态组成，另一个由在第二次玩时看到的状态组成。如果一方总是先玩，那么另一方将只体验状态空间中两个子集中的一个。它会尝试学习一种策略，试图以第二名的身份获胜。

让双方都扮演第一和第二球员会很好。每场比赛前掷硬币 - 如果正面，让左侧先玩，否则右侧开始。这样我们至少可以确保代理的策略与哪一方先开始无关。

其它你可能感兴趣的问题