为什么我的强化学习代理的平均奖励图与通常的图不同?

人工智能 机器学习 强化学习
2021-11-11 19:45:00

我正在使用 SARSA 和 Q-Learning 构建一个 RL 代理来测试其功能。

环境是一个 10x10 的网格,如果他达到目标,则奖励为 1,而他每走出网格一步,则获得 -1 的奖励。因此,它可以自由地移出,并且每次在网格之外迈出一步,它都会得到-1。

调整主要参数后

  • 阿尔法值:0.25
  • 折扣:0.99
  • 剧集长度:50
  • 每股收益:0.5

我得到以下 10000 集的情节(情节每 100 集采样一次):

在此处输入图像描述

但是当我在网上查看情节时,我看到的情节通常是这样的:

在此处输入图像描述

由于我是 RL 的新人,如果你们中的任何人认为我做错了什么,我会就我的结果或任何类型的建议征求一些意见。

1个回答

好吧,知道代理实际上正在学习的方法是查看它在执行任务时的行为,并与已知的最佳性能进行比较。

那么,您的代理是否快速达到目标?它是否经常跳出网格?最大可能的奖励总和/可达到的最小步数是多少?代理是否接近该限制?从您的图形中,如果我正确理解了您的 RL 问题,那么每一步的最大平均奖励应该接近 1(取决于您使用的具体环境),所以我猜您离最优解决方案并不远。

此外,如果您继续训练更长时间,您的代理可能会达到一个稳定的解决方案,该解决方案可能是最优的,也可能不是最优的。如果你在那之后继续训练,你的曲线肯定会和你在网上找到的一样。