我一直在为我的机器人学习课做井字游戏作业。我们被要求编写井字游戏并分配;如果 X 获胜,则 +1,如果 O 获胜,则为 -1,如果比赛结果为平局,则为 0。在第 1 部分中,我们被告知使用 Q 表,在第 2 部分中,我们被告知将 Q 表替换为神经网络作为函数逼近器。
我的理解是这两种方法都应该达到最优策略,你能确认还是否认我的理解?
我一直在为我的机器人学习课做井字游戏作业。我们被要求编写井字游戏并分配;如果 X 获胜,则 +1,如果 O 获胜,则为 -1,如果比赛结果为平局,则为 0。在第 1 部分中,我们被告知使用 Q 表,在第 2 部分中,我们被告知将 Q 表替换为神经网络作为函数逼近器。
我的理解是这两种方法都应该达到最优策略,你能确认还是否认我的理解?
我的理解是这两种方法都应该达到最优策略,你能确认还是否认我的理解?
是的,我希望 Q Learning 的神经网络能够找到最优策略,只要它保持稳定*。价值估计可能稍微不准确,但最终的策略应该是完全最优的。那是因为在井字游戏中,所有的价值估计都应该是-1、0或+1,并且数据被干净地分开了。
您应该能够获得一个神经网络,以使用监督学习从第一个实验中学习最佳 Q 表。事实上,这将是一个很好的测试你的神经网络是否有能力学习那个表。
* 天真地添加到 Q 学习代理的神经网络通常不稳定。事实上,在扩展 RL 代理时,这是一个很常见的问题,以至于它有一个名字:“致命的三元组”。这通常不是通过对代理进行优雅的数学更改来解决的,而是通过一些工程技巧来解决的:
体验重播。保存观察结果(S、A、R、S')并稍后从该内存表中采样以进行小批量训练。
交替网络。使用神经网络的旧冻结副本计算TD 目标