我正在尝试使用 Deep-Q-Learning 来学习控制 7 自由度机械臂的 ANN。机械臂必须避开障碍物并到达目标。
我已经实施了一些最先进的技术来尝试提高人工神经网络的性能。这些技术是:PER、Double DQN、自适应折扣因子、稀疏奖励。我也尝试过 Dueling DQN,但表现不佳。我还尝试了许多 ANN 架构,看起来 2 个隐藏层和 128 个神经元是迄今为止最好的。我的输入层是 12 个神经元,输出 10 个神经元。
但是,正如您从下面的图像中看到的那样,在某个点上,DQN 停止学习并卡在大约 80% 的成功率上。我不明白为什么它会卡住,因为在我看来我们可以达到更高的成功率,至少 90%,但我就是无法摆脱那个“局部最小值”。
所以,我的问题是:有哪些技术可以尝试从看起来像局部最小值的东西中解开 DQN?
数字:
注意:此图中的成功率计算为最后 100 次运行的成功次数。
