时间差异学习陷入困境

数据挖掘 机器学习
2022-02-22 08:43:11

我正在尝试实现一种时间差异算法,该算法使用价格作为行动、库存作为状态以及实现的收入作为奖励来学习一段时间内的最大收入。我遇到的问题是我似乎无法让它收敛于最优策略。似乎它陷入了大约 60% 优化的收入,然后不再让步。是否有一些常见的陷阱可能导致这种情况?我尝试过一点探索的速度,但这似乎并没有多大帮助。

编辑:好的,所以我回顾了所有内容,似乎问题在于,当它停止探索时,它只会不断增加过去已经被认为是最好的状态的 Q 值。所以例如它在某个状态和时间访问价格5并获得奖励。然后,在接下来的几集中,它继续访问 5,并继续获得奖励,将奖励添加到 Q 值,直到它相当高。到那时,即使是在相同的状态和时间进行探索,它所获得的奖励也不足以克服夸大的 Q 值,所以在下一集就直接回到 5。是我正在尝试遵循的步骤。

1个回答

听起来像是一个有趣的应用程序。为了调试 RL 应用程序,我喜欢执行 rollout。首先确定当前政策似乎明显错误的状态;(也许采样一些状态并单独查看它们)。然后关闭学习并从该状态运行当前 RL 策略和您认为正确的操作的样本。这应该给你真正的行动价值。希望这会给你一个关于出了什么问题的提示。如果这是一个探索问题,那么当前策略将不会尝试任何与您认为正确的操作类似的操作。如果值函数的形式是错误的,那么它将不适合来自您的样本的值。