我已经实现了强化学习算法,让代理使用一个 q-table 来播放snappy bird(一种无耻的廉价盗版),用于存储历史以供将来查找。经过足够的训练,它可以工作并最终实现完美收敛。
是否可以实现神经网络来进行函数逼近以实现 q-table 的目的?显然,存储是 q-table 的一个问题,但它似乎从来没有单独使用神经网络进行训练。也许在现有的 q-table 上训练 NN 会起作用,但如果可能的话,我想根本不使用 q-table。
我已经实现了强化学习算法,让代理使用一个 q-table 来播放snappy bird(一种无耻的廉价盗版),用于存储历史以供将来查找。经过足够的训练,它可以工作并最终实现完美收敛。
是否可以实现神经网络来进行函数逼近以实现 q-table 的目的?显然,存储是 q-table 的一个问题,但它似乎从来没有单独使用神经网络进行训练。也许在现有的 q-table 上训练 NN 会起作用,但如果可能的话,我想根本不使用 q-table。
Andrej Karpathy 的博客有一个关于让神经网络通过强化学习来学习乒乓球的教程。他对该领域当前状态的评论很有趣。
他还提供了一大堆链接(David Silver 的课程引起了我的注意)。这是讲座视频的工作链接。
这是 DeepMinds 游戏的演示。在上面的 Andrej Karpathy 的博客中获取论文链接 - rat fps
对的,这是可能的。深度强化学习领域就是使用深度神经网络(即具有至少一个隐藏层的神经网络)来逼近值函数(例如功能)或政策。
看看论文A Brief Survey of Deep Reinforcement Learning,该论文对该领域进行了简要调查。