使用 DQN 的迷宫逃生问题不会增加奖励

人工智能 深度学习 强化学习 深度学习
2021-11-13 12:13:54

我正在使用深度强化学习来解决经典的迷宫逃生任务,类似于此处提供的实现,除了以下三个关键区别:

  1. 我没有使用numpy数组作为标准迷宫逃逸任务的输入,而是在每个步骤中为模型提供图像;图像是 1300 * 900 RGB 图像,所以不会太小。

  2. 报酬:

    • 每个有效的移动都有一个小的负奖励(惩罚长移动)
    • 每个无效的举动都有很大的负面奖励(遇到其他物体或边界)
    • 每个被阻止的动作都有最小的奖励(不常见)
    • 发现远程探测器的缺陷有正回报 (5)
  3. 我调整了重放内存的参数,减小了重放内存缓冲区的大小。

关于实现,除了以上几项,我基本上没有改变代理设置,我实现了我env的包裹我的自定义迷宫。

但问题是,累积奖励(前200轮成功逃脱)并没有增加:

在此处输入图像描述

而且逃出一个迷宫的步数也比较稳定:

在此处输入图像描述

这是我的问题,我可以从哪个方面着手优化我的问题?还是现在还为时过早,我需要训练更多时间?

1个回答

您应该使用一种算法来尝试以最佳方式解决迷宫问题,也许是 A* 算法。如果最佳步骤也在您的网络范围内,则您的网络可能已达到最佳状态。如果最佳步数少得多,您可以尝试增加步数惩罚并增加到达终点的奖励。希望你能成功解决这个问题。