在 DeepMind 2015 年关于深度强化学习的论文中,它指出“以前将 RL 与神经网络相结合的尝试由于学习不稳定而在很大程度上失败了”。然后,该论文根据观察结果的相关性列出了造成这种情况的一些原因。
请问有人能解释一下这是什么意思吗?它是一种过度拟合的形式,其中神经网络学习了一些在训练中存在但在测试中可能不存在的结构?还是有别的意思?
论文可以在: http: //www.nature.com/nature/journal/v518/n7540/full/nature14236.html
我试图理解的部分是:
众所周知,当使用诸如神经网络之类的非线性函数逼近器来表示动作值(也称为 Q)函数时,强化学习是不稳定的,甚至会发散。这种不稳定性有几个原因:观察序列中存在的相关性,对 Q 的小更新可能会显着改变策略并因此改变数据分布的事实,以及动作值和目标值之间的相关性。
我们用一种新的 Q-learning 变体来解决这些不稳定性,它使用了两个关键思想。首先,我们使用了一种被称为经验重放的生物学启发机制,该机制对数据进行随机化,从而消除观察序列中的相关性并平滑数据分布的变化。其次,我们使用了迭代更新,将动作值 (Q) 调整为仅定期更新的目标值,从而减少与目标的相关性。