在将神经网络用作函数逼近器的情况下,我试图了解强化学习和马尔可夫决策过程(MDP)。
我很难理解以概率方式探索环境的 MDP 之间的关系,这如何映射回学习参数以及如何找到最终解决方案/策略。
我是否正确假设在 Q 学习的情况下,神经网络本质上充当 q 值本身在未来这么多步骤的函数逼近器?这如何映射到通过反向传播或其他方法更新参数?
此外,一旦网络学会了如何预测未来的奖励,就实际做出决策而言,这如何与系统相适应?我假设最终系统不会在概率上进行状态转换。
谢谢
在将神经网络用作函数逼近器的情况下,我试图了解强化学习和马尔可夫决策过程(MDP)。
我很难理解以概率方式探索环境的 MDP 之间的关系,这如何映射回学习参数以及如何找到最终解决方案/策略。
我是否正确假设在 Q 学习的情况下,神经网络本质上充当 q 值本身在未来这么多步骤的函数逼近器?这如何映射到通过反向传播或其他方法更新参数?
此外,一旦网络学会了如何预测未来的奖励,就实际做出决策而言,这如何与系统相适应?我假设最终系统不会在概率上进行状态转换。
谢谢
在 Q-Learning 中,每一步你都将使用观察和奖励来更新你的 Q 值函数:
您说神经网络只是 q 值函数的函数近似是正确的。
一般来说,近似部分只是一个标准的监督学习问题。您的网络使用 (s,a) 作为输入,输出是 q 值。随着 q 值的调整,您需要将这些新样本训练到网络中。不过,当您使用相关样本时,您会发现一些问题,并且 SGD 会受到影响。
如果您正在查看 DQN 论文,情况会略有不同。在这种情况下,他们正在做的是将样本放入向量中(体验重播)。为了教导网络,他们从向量中采样元组,使用这些信息进行引导以获得一个新的 q 值,该 q 值被教导给网络。当我说教学时,我的意思是使用随机梯度下降或您最喜欢的优化方法调整网络参数。通过不按策略收集的顺序教授样本,可以将它们去相关,这有助于训练。
最后,为了对状态做出决定,您选择提供最高 q 值的操作:
如果你的 Q 值函数已经被完全学习并且环境是静止的,那么此时贪婪是可以的。但是,在学习的同时,您应该进行探索。有几种方法正在-贪婪是最简单和最常见的方法之一。