我正在使用深度强化学习来解决经典的迷宫逃生任务,类似于此处提供的实现,除了以下三个关键区别:
我没有使用
numpy数组作为标准迷宫逃逸任务的输入,而是在每个步骤中为模型提供图像;图像是 1300 * 900 RGB 图像,所以不会太小。报酬:
- 每个有效的移动都有一个小的负奖励(惩罚长移动)
- 每个无效的举动都有很大的负面奖励(遇到其他物体或边界)
- 每个被阻止的动作都有最小的奖励(不常见)
- 发现远程探测器的缺陷有正回报 (5)
我调整了重放内存的参数,减小了重放内存缓冲区的大小。
关于实现,除了以上几项,我基本上没有改变代理设置,我实现了我env的包裹我的自定义迷宫。
但问题是,累积奖励(前200轮成功逃脱)并没有增加:
而且逃出一个迷宫的步数也比较稳定:
这是我的问题,我可以从哪个方面着手优化我的问题?还是现在还为时过早,我需要训练更多时间?

