数据挖掘 - 井字游戏的 Q 学习和神经网络 - 吾爱随笔录

数据挖掘机器学习神经网络强化学习 q学习

2022-02-19 04:55:06

我一直在为我的机器人学习课做井字游戏作业。我们被要求编写井字游戏并分配；如果 X 获胜，则 +1，如果 O 获胜，则为 -1，如果比赛结果为平局，则为 0。在第 1 部分中，我们被告知使用 Q 表，在第 2 部分中，我们被告知将 Q 表替换为神经网络作为函数逼近器。

我的理解是这两种方法都应该达到最优策略，你能确认还是否认我的理解？

1个回答

我的理解是这两种方法都应该达到最优策略，你能确认还是否认我的理解？

是的，我希望 Q Learning 的神经网络能够找到最优策略，只要它保持稳定*。价值估计可能稍微不准确，但最终的策略应该是完全最优的。那是因为在井字游戏中，所有的价值估计都应该是-1、0或+1，并且数据被干净地分开了。

您应该能够获得一个神经网络，以使用监督学习从第一个实验中学习最佳 Q 表。事实上，这将是一个很好的测试你的神经网络是否有能力学习那个表。

* 天真地添加到 Q 学习代理的神经网络通常不稳定。事实上，在扩展 RL 代理时，这是一个很常见的问题，以至于它有一个名字：“致命的三元组”。这通常不是通过对代理进行优雅的数学更改来解决的，而是通过一些工程技巧来解决的：

体验重播。保存观察结果（S、A、R、S'）并稍后从该内存表中采样以进行小批量训练。
交替网络。使用神经网络的旧冻结副本计算TD 目标 $\text{max}_{a'} Q(S',a')$ $R + \gamma\text{max}_{a'} Q(S',a')$

其它你可能感兴趣的问题