DQN,如何选择奖励功能?

人工智能 机器学习 dqn
2021-11-06 00:58:50

我构建了一个简单的 AI 系统,尝试使用 DQN 解决 8 谜题。问题是,如果代理获胜时只得到大于零的奖励,训练时间会很长,所以我做了一个平滑的奖励函数:R=(n/9)3, 在哪里n是处于正确位置的件数。

训练变得更快了,但 AI 选择匹配 9 个中的 7 个来获得奖励(7/9)3/(1γ)=0.47/(1γ)=4.7, 为了γ=0.9,选择获胜并获得 1 的奖励对 AI 来说没有意义,降低γ会导致 AI 选择即时奖励而不是长期奖励,这样不会很有帮助;降低非获胜统计数据的奖励将使训练非常缓慢。

那么,如何选择一个好的奖励函数呢?

0个回答
没有发现任何回复~