我正在尝试实现一种时间差异算法,该算法使用价格作为行动、库存作为状态以及实现的收入作为奖励来学习一段时间内的最大收入。我遇到的问题是我似乎无法让它收敛于最优策略。似乎它陷入了大约 60% 优化的收入,然后不再让步。是否有一些常见的陷阱可能导致这种情况?我尝试过一点探索的速度,但这似乎并没有多大帮助。
编辑:好的,所以我回顾了所有内容,似乎问题在于,当它停止探索时,它只会不断增加过去已经被认为是最好的状态的 Q 值。所以例如它在某个状态和时间访问价格5并获得奖励。然后,在接下来的几集中,它继续访问 5,并继续获得奖励,将奖励添加到 Q 值,直到它相当高。到那时,即使是在相同的状态和时间进行探索,它所获得的奖励也不足以克服夸大的 Q 值,所以在下一集就直接回到 5。这是我正在尝试遵循的步骤。