为什么 DQN 倾向于忘记?是因为当您提供高度相关的样本时,您的模型(函数逼近)没有给出通用解决方案?
例如:
我使用 1 级经验,我的模型适合学习如何玩那个级别。
我进入了第 2 级,我的权重已更新并适合玩第 2 级,这意味着我不知道如何再次玩第 1 级。
为什么 DQN 倾向于忘记?是因为当您提供高度相关的样本时,您的模型(函数逼近)没有给出通用解决方案?
例如:
我使用 1 级经验,我的模型适合学习如何玩那个级别。
我进入了第 2 级,我的权重已更新并适合玩第 2 级,这意味着我不知道如何再次玩第 1 级。
您指的是灾难性遗忘,这可能是任何神经网络中的一个问题。更具体的 DQN 参考这篇文章。