人工智能 - 我应该如何考虑奖励函数中的步数？ - 吾爱随笔录

人工智能强化学习人工智能设计文件奖励

2021-11-12 05:26:13

我目前正在实施论文Active Object Localization with Deep Reinforcement Learning in Python。在阅读奖励计划时，我发现了以下内容：

最后，由于 Q-learning 对未来奖励（正面和负面）折扣的建模方式，所提出的奖励方案隐含地将步数视为成本。

您将如何实施此“步骤数”成本？我正在跟踪已采取的步骤数，因此最好使用指数函数来折扣当前时间步的奖励吗？

如果有人有一个好主意或知道这方面的标准，我很想听听你的想法。

1个回答

您将如何实施此“步数”成本？

本文所指的是奖励折扣过程，它是制定 RL 问题的标准方法，无论是连续问题还是偶发问题，目标是在最短的时间内完成任务（在偶发版本中，每次固定成本时间步也将实现这一点）。

因此，这通常在价值函数计算的公式中实现。折扣因子通常表示为 gamma， $\gamma$ .

对于 Q-learning，该因子应在 TD 目标计算中：

G_{t : t + 1} = R_{t + 1} + γ max_{a^{'}} Q (S_{t + 1}, a^{'})

$G_{t:t+1} = R_{t+1} + \gamma \max_{a'}Q(S_{t+1},a')$

对于蒙特卡洛控制，该因子在计算收益时更像这样：

G_{t} = \sum_{k = 0}^{T - t} γ^{k} R_{t + k + 1}

$G_t = \sum_{k=0}^{T-t} \gamma^k R_{t+k+1}$

最好使用指数函数来折扣当前时间步的奖励吗？

本质上，这就是正常的折扣——未来奖励的指数衰减。但是，如果您已经从上述等式中实现了“正常”Q 学习，那么它应该已经存在。

其它你可能感兴趣的问题