人工智能 - 使用 DQN 的迷宫逃生问题不会增加奖励 - 吾爱随笔录

我正在使用深度强化学习来解决经典的迷宫逃生任务，类似于此处提供的实现，除了以下三个关键区别：

我没有使用numpy数组作为标准迷宫逃逸任务的输入，而是在每个步骤中为模型提供图像；图像是 1300 * 900 RGB 图像，所以不会太小。
报酬：
- 每个有效的移动都有一个小的负奖励（惩罚长移动）
- 每个无效的举动都有很大的负面奖励（遇到其他物体或边界）
- 每个被阻止的动作都有最小的奖励（不常见）
- 发现远程探测器的缺陷有正回报 (5)
我调整了重放内存的参数，减小了重放内存缓冲区的大小。

关于实现，除了以上几项，我基本上没有改变代理设置，我实现了我env的包裹我的自定义迷宫。

但问题是，累积奖励（前200轮成功逃脱）并没有增加：

而且逃出一个迷宫的步数也比较稳定：

这是我的问题，我可以从哪个方面着手优化我的问题？还是现在还为时过早，我需要训练更多时间？