在阅读DQN 论文时,我发现随机选择和学习样本可以使用非线性函数逼近器(例如神经网络)减少 RL 中的分歧。
那么,为什么在使用强相关数据作为输入时,使用非线性函数逼近器的强化学习会发散呢?
在阅读DQN 论文时,我发现随机选择和学习样本可以使用非线性函数逼近器(例如神经网络)减少 RL 中的分歧。
那么,为什么在使用强相关数据作为输入时,使用非线性函数逼近器的强化学习会发散呢?
与其说是使用强化学习来训练神经网络的问题,不如说是对提供给标准神经网络的数据所做的假设。它们无法处理强相关数据,这是引入递归神经网络的动机之一,因为它们可以很好地处理这些相关数据。