为什么深度强化学习不稳定?

机器算法验证 机器学习 神经网络 深度学习 强化学习
2022-02-14 13:45:31

在 DeepMind 2015 年关于深度强化学习的论文中,它指出“以前将 RL 与神经网络相结合的尝试由于学习不稳定而在很大程度上失败了”。然后,该论文根据观察结果的相关性列出了造成这种情况的一些原因。

请问有人能解释一下这是什么意思吗?它是一种过度拟合的形式,其中神经网络学习了一些在训练中存在但在测试中可能不存在的结构?还是有别的意思?


论文可以在: http: //www.nature.com/nature/journal/v518/n7540/full/nature14236.html

我试图理解的部分是:

众所周知,当使用诸如神经网络之类的非线性函数逼近器来表示动作值(也称为 Q)函数时,强化学习是不稳定的,甚至会发散。这种不稳定性有几个原因:观察序列中存在的相关性,对 Q 的小更新可能会显着改变策略并因此改变数据分布的事实,以及动作值和目标值之间的相关性。

我们用一种新的 Q-learning 变体来解决这些不稳定性,它使用了两个关键思想。首先,我们使用了一种被称为经验重放的生物学启发机制,该机制对数据进行随机化,从而消除观察序列中的相关性并平滑数据分布的变化。其次,我们使用了迭代更新,将动作值 (Q) 调整为仅定期更新的目标值,从而减少与目标的相关性。

1个回答

主要问题是,与许多其他领域一样,DNN 很难训练。在这里,一个问题是输入数据的相关性:如果你考虑一个视频游戏(他们实际上使用这些来测试他们的算法),你可以想象一个接一个的屏幕截图是高度相关的:游戏“不断地”发展。对于 NN 来说,这可能是一个问题:对相似和相关的输入进行多次梯度下降迭代可能会导致它们过拟合和/或陷入局部最小值。这就是他们使用经验回放的原因:他们存储一系列游戏的“快照”,然后将它们随机播放,然后再挑选一些步骤进行训练。这样,数据不再相关。然后,他们注意到在训练期间 Q 值(由 NN 预测)如何改变正在进行的策略,