我是机器学习的新手,我正在尝试使用 Q-learning解决MountainCar-v0 。我现在可以解决问题,但我仍然感到困惑。
根据MountainCar-v0 的 Wiki,即使汽车已经到达目的地,每一步的奖励仍然是 -1。不变奖励如何帮助智能体学习?如果每一步都给出相同的奖励,那么智能体如何判断这是好棋还是坏棋?
提前致谢!
我是机器学习的新手,我正在尝试使用 Q-learning解决MountainCar-v0 。我现在可以解决问题,但我仍然感到困惑。
根据MountainCar-v0 的 Wiki,即使汽车已经到达目的地,每一步的奖励仍然是 -1。不变奖励如何帮助智能体学习?如果每一步都给出相同的奖励,那么智能体如何判断这是好棋还是坏棋?
提前致谢!
好吧,一些效率低下的代理将需要更多步骤才能达到目标。其他人将有一种更以目标为导向、更有效的方式来实现目标。高效的代理将需要更少的步骤并获得更好/更大的分数。