我构建了一个简单的 AI 系统,尝试使用 DQN 解决 8 谜题。问题是,如果代理获胜时只得到大于零的奖励,训练时间会很长,所以我做了一个平滑的奖励函数:, 在哪里是处于正确位置的件数。
训练变得更快了,但 AI 选择匹配 9 个中的 7 个来获得奖励, 为了,选择获胜并获得 1 的奖励对 AI 来说没有意义,降低会导致 AI 选择即时奖励而不是长期奖励,这样不会很有帮助;降低非获胜统计数据的奖励将使训练非常缓慢。
那么,如何选择一个好的奖励函数呢?
我构建了一个简单的 AI 系统,尝试使用 DQN 解决 8 谜题。问题是,如果代理获胜时只得到大于零的奖励,训练时间会很长,所以我做了一个平滑的奖励函数:, 在哪里是处于正确位置的件数。
训练变得更快了,但 AI 选择匹配 9 个中的 7 个来获得奖励, 为了,选择获胜并获得 1 的奖励对 AI 来说没有意义,降低会导致 AI 选择即时奖励而不是长期奖励,这样不会很有帮助;降低非获胜统计数据的奖励将使训练非常缓慢。
那么,如何选择一个好的奖励函数呢?