数据挖掘 - 为什么不变奖励有助于训练？ - 吾爱随笔录

数据挖掘机器学习开放式健身房

2022-03-04 07:19:59

我是机器学习的新手，我正在尝试使用 Q-learning解决MountainCar-v0 。我现在可以解决问题，但我仍然感到困惑。

根据MountainCar-v0 的 Wiki，即使汽车已经到达目的地，每一步的奖励仍然是 -1。不变奖励如何帮助智能体学习？如果每一步都给出相同的奖励，那么智能体如何判断这是好棋还是坏棋？

提前致谢！

1个回答

好吧，一些效率低下的代理将需要更多步骤才能达到目标。其他人将有一种更以目标为导向、更有效的方式来实现目标。高效的代理将需要更少的步骤并获得更好/更大的分数。

其它你可能感兴趣的问题