井字游戏的 Q 学习和神经网络

数据挖掘 机器学习 神经网络 强化学习 q学习
2022-02-19 04:55:06

我一直在为我的机器人学习课做井字游戏作业。我们被要求编写井字游戏并分配;如果 X 获胜,则 +1,如果 O 获胜,则为 -1,如果比赛结果为平局,则为 0。在第 1 部分中,我们被告知使用 Q 表,在第 2 部分中,我们被告知将 Q 表替换为神经网络作为函数逼近器。

我的理解是这两种方法都应该达到最优策略,你能确认还是否认我的理解?

1个回答

我的理解是这两种方法都应该达到最优策略,你能确认还是否认我的理解?

是的,我希望 Q Learning 的神经网络能够找到最优策略,只要它保持稳定*。价值估计可能稍微不准确,但最终的策略应该是完全最优的。那是因为在井字游戏中,所有的价值估计都应该是-1、0或+1,并且数据被干净地分开了。

您应该能够获得一个神经网络,以使用监督学习从第一个实验中学习最佳 Q 表。事实上,这将是一个很好的测试你的神经网络是否有能力学习那个表。

* 天真地添加到 Q 学习代理的神经网络通常不稳定。事实上,在扩展 RL 代理时,这是一个很常见的问题,以至于它有一个名字:“致命的三元组”。这通常不是通过对代理进行优雅的数学更改来解决的,而是通过一些工程技巧来解决的:

  • 体验重播。保存观察结果(S、A、R、S')并稍后从该内存表中采样以进行小批量训练。

  • 交替网络。使用神经网络的旧冻结副本计算TD 目标maxaQ(S,a)R+γmaxaQ(S,a)