我目前正在实施论文Active Object Localization with Deep Reinforcement Learning in Python。在阅读奖励计划时,我发现了以下内容:
最后,由于 Q-learning 对未来奖励(正面和负面)折扣的建模方式,所提出的奖励方案隐含地将步数视为成本。
您将如何实施此“步骤数”成本?我正在跟踪已采取的步骤数,因此最好使用指数函数来折扣当前时间步的奖励吗?
如果有人有一个好主意或知道这方面的标准,我很想听听你的想法。
我目前正在实施论文Active Object Localization with Deep Reinforcement Learning in Python。在阅读奖励计划时,我发现了以下内容:
最后,由于 Q-learning 对未来奖励(正面和负面)折扣的建模方式,所提出的奖励方案隐含地将步数视为成本。
您将如何实施此“步骤数”成本?我正在跟踪已采取的步骤数,因此最好使用指数函数来折扣当前时间步的奖励吗?
如果有人有一个好主意或知道这方面的标准,我很想听听你的想法。
您将如何实施此“步数”成本?
本文所指的是奖励折扣过程,它是制定 RL 问题的标准方法,无论是连续问题还是偶发问题,目标是在最短的时间内完成任务(在偶发版本中,每次固定成本时间步也将实现这一点)。
因此,这通常在价值函数计算的公式中实现。折扣因子通常表示为 gamma,.
对于 Q-learning,该因子应在 TD 目标计算中:
对于蒙特卡洛控制,该因子在计算收益时更像这样:
最好使用指数函数来折扣当前时间步的奖励吗?
本质上,这就是正常的折扣——未来奖励的指数衰减。但是,如果您已经从上述等式中实现了“正常”Q 学习,那么它应该已经存在。