人工智能 - DQN 代理不再学习 - 我能做些什么来解决这个问题？ - 吾爱随笔录

我正在尝试使用 Deep-Q-Learning 来学习控制 7 自由度机械臂的 ANN。机械臂必须避开障碍物并到达目标。

我已经实施了一些最先进的技术来尝试提高人工神经网络的性能。这些技术是：PER、Double DQN、自适应折扣因子、稀疏奖励。我也尝试过 Dueling DQN，但表现不佳。我还尝试了许多 ANN 架构，看起来 2 个隐藏层和 128 个神经元是迄今为止最好的。我的输入层是 12 个神经元，输出 10 个神经元。

但是，正如您从下面的图像中看到的那样，在某个点上，DQN 停止学习并卡在大约 80% 的成功率上。我不明白为什么它会卡住，因为在我看来我们可以达到更高的成功率，至少 90%，但我就是无法摆脱那个“局部最小值”。

所以，我的问题是：有哪些技术可以尝试从看起来像局部最小值的东西中解开 DQN？

数字：

注意：此图中的成功率计算为最后 100 次运行的成功次数。