我已经实现了 DQN 算法,想知道为什么在测试期间,最佳性能是通过大约 300 集的策略实现的,而平均 Q 值收敛于大约 800 集?
- 通过取每个状态的最大 Q 值的平均值,在一组固定状态上计算平均 Q 值。
- 收敛是指平均 Q 值图收敛到某个水平(这些值不会增加到无穷大)。
在这里(第 7 页)可以看出,这意味着 Q 值收敛并且平均奖励图非常嘈杂。我得到了类似的结果,在测试中,最好的策略是训练期间的峰值(平均奖励图)。我不明白为什么当 Q 值收敛时我不能随着时间的推移获得更好的平均分数(和更好的政策)。