为什么在使用强相关数据作为输入时,使用非线性函数逼近器的强化学习会发散?

人工智能 强化学习 dqn 深度学习 收敛 函数逼近
2021-10-19 02:10:19

在阅读DQN 论文时,我发现随机选择和学习样本可以使用非线性函数逼近器(例如神经网络)减少 RL 中的分歧。

那么,为什么在使用强相关数据作为输入时,使用非线性函数逼近器的强化学习会发散呢?

1个回答

与其说是使用强化学习来训练神经网络的问题,不如说是对提供给标准神经网络的数据所做的假设。它们无法处理强相关数据,这是引入递归神经网络的动机之一,因为它们可以很好地处理这些相关数据。