我正在尝试训练一个深度强化学习模型来完成迷宫逃逸任务,并且每次它都将一张图像作为输入(例如,不同的“迷宫”)。
假设我有大约不同的迷宫图像,理想的情况是经过训练迷宫,我的模型会很好地快速解决其余的难题-图片。
我写信是为了询问一些关于如何选择好的想法/经验证据用于训练任务。
总的来说,我应该如何估计和增强我的强化模型的“迁移学习”能力?让它更通用?
任何意见或建议将不胜感激。谢谢。
我正在尝试训练一个深度强化学习模型来完成迷宫逃逸任务,并且每次它都将一张图像作为输入(例如,不同的“迷宫”)。
假设我有大约不同的迷宫图像,理想的情况是经过训练迷宫,我的模型会很好地快速解决其余的难题-图片。
我写信是为了询问一些关于如何选择好的想法/经验证据用于训练任务。
总的来说,我应该如何估计和增强我的强化模型的“迁移学习”能力?让它更通用?
任何意见或建议将不胜感激。谢谢。