人工智能 - DQN，如何选择奖励功能？ - 吾爱随笔录

我构建了一个简单的 AI 系统，尝试使用 DQN 解决 8 谜题。问题是，如果代理获胜时只得到大于零的奖励，训练时间会很长，所以我做了一个平滑的奖励函数： $R=(n/9)^3$ ，在哪里 $n$ 是处于正确位置的件数。

训练变得更快了，但 AI 选择匹配 9 个中的 7 个来获得奖励 $(7/9)^3/(1-\gamma) = 0.47/(1-\gamma) = 4.7$ ，为了 $\gamma=0.9$ ，选择获胜并获得 1 的奖励对 AI 来说没有意义，降低 $\gamma$ 会导致 AI 选择即时奖励而不是长期奖励，这样不会很有帮助；降低非获胜统计数据的奖励将使训练非常缓慢。

那么，如何选择一个好的奖励函数呢？