人工智能 - 为什么我的强化学习代理的平均奖励图与通常的图不同？ - 吾爱随笔录

人工智能机器学习强化学习

2021-11-11 19:45:00

我正在使用 SARSA 和 Q-Learning 构建一个 RL 代理来测试其功能。

环境是一个 10x10 的网格，如果他达到目标，则奖励为 1，而他每走出网格一步，则获得 -1 的奖励。因此，它可以自由地移出，并且每次在网格之外迈出一步，它都会得到-1。

调整主要参数后

我得到以下 10000 集的情节（情节每 100 集采样一次）：

但是当我在网上查看情节时，我看到的情节通常是这样的：

由于我是 RL 的新人，如果你们中的任何人认为我做错了什么，我会就我的结果或任何类型的建议征求一些意见。

1个回答

好吧，知道代理实际上正在学习的方法是查看它在执行任务时的行为，并与已知的最佳性能进行比较。

那么，您的代理是否快速达到目标？它是否经常跳出网格？最大可能的奖励总和/可达到的最小步数是多少？代理是否接近该限制？从您的图形中，如果我正确理解了您的 RL 问题，那么每一步的最大平均奖励应该接近 1（取决于您使用的具体环境），所以我猜您离最优解决方案并不远。

此外，如果您继续训练更长时间，您的代理可能会达到一个稳定的解决方案，该解决方案可能是最优的，也可能不是最优的。如果你在那之后继续训练，你的曲线肯定会和你在网上找到的一样。

其它你可能感兴趣的问题