我刚开始阅读 Sutton 和 Barto 的书《强化学习:简介》,很好奇如何思考练习 1.1:自我游戏的答案。假设上述强化学习算法不是与随机对手对抗,而是与自己对抗。你认为在这种情况下会发生什么?它会学习不同的演奏方式吗?
人们也可以想到以下相关的子问题,但它们并没有使我的想法更加清晰。
- 移除学习中的随机部分会改变情况——即始终遵循最优策略而不是探索吗?
- 这将如何取决于谁是先行者?
我刚开始阅读 Sutton 和 Barto 的书《强化学习:简介》,很好奇如何思考练习 1.1:自我游戏的答案。假设上述强化学习算法不是与随机对手对抗,而是与自己对抗。你认为在这种情况下会发生什么?它会学习不同的演奏方式吗?
人们也可以想到以下相关的子问题,但它们并没有使我的想法更加清晰。
我不确定第一个问题。关于第二个,我的想法是:
如果考虑井字棋的状态空间,它可以划分为两个互斥的子集,一个由代理在第一次玩时看到的状态组成,另一个由在第二次玩时看到的状态组成。如果一方总是先玩,那么另一方将只体验状态空间中两个子集中的一个。它会尝试学习一种策略,试图以第二名的身份获胜。
让双方都扮演第一和第二球员会很好。每场比赛前掷硬币 - 如果正面,让左侧先玩,否则右侧开始。这样我们至少可以确保代理的策略与哪一方先开始无关。