为什么不变奖励有助于训练?

数据挖掘 机器学习 开放式健身房
2022-03-04 07:19:59

我是机器学习的新手,我正在尝试使用 Q-learning解决MountainCar-v0 。我现在可以解决问题,但我仍然感到困惑。

根据MountainCar-v0 的 Wiki,即使汽车已经到达目的地,每一步的奖励仍然是 -1。不变奖励如何帮助智能体学习?如果每一步都给出相同的奖励,那么智能体如何判断这是好棋还是坏棋?

提前致谢!

1个回答

好吧,一些效率低下的代理将需要更多步骤才能达到目标。其他人将有一种更以目标为导向、更有效的方式来实现目标。高效的代理将需要更少的步骤并获得更好/更大的分数。