我应该如何考虑奖励函数中的步数?

人工智能 强化学习 人工智能设计 文件 奖励
2021-11-12 05:26:13

我目前正在实施论文Active Object Localization with Deep Reinforcement Learning in Python。在阅读奖励计划时,我发现了以下内容:

最后,由于 Q-learning 对未来奖励(正面和负面)折扣的建模方式,所提出的奖励方案隐含地将步数视为成本。

您将如何实施此“步骤数”成本?我正在跟踪已采取的步骤数,因此最好使用指数函数来折扣当前时间步的奖励吗?

如果有人有一个好主意或知道这方面的标准,我很想听听你的想法。

1个回答

您将如何实施此“步数”成本?

本文所指的是奖励折扣过程,它是制定 RL 问题的标准方法,无论是连续问题还是偶发问题,目标是在最短的时间内完成任务(在偶发版本中,每次固定成本时间步也将实现这一点)。

因此,这通常在价值函数计算的公式中实现。折扣因子通常表示为 gamma,γ.

对于 Q-learning,该因子应在 TD 目标计算中:

Gt:t+1=Rt+1+γmaxaQ(St+1,a)

对于蒙特卡洛控制,该因子在计算收益时更像这样:

Gt=k=0TtγkRt+k+1

最好使用指数函数来折扣当前时间步的奖励吗?

本质上,这就是正常的折扣——未来奖励的指数衰减。但是,如果您已经从上述等式中实现了“正常”Q 学习,那么它应该已经存在。