数据挖掘 - 如何解决 DQN（Deep Q-Network）训练中每集平均奖励的不稳定性？ - 吾爱随笔录

当训练中每集的平均奖励不稳定时会显示什么？

如果每集的平均奖励与测试部分的最终奖励之间存在很大差异，我们能说什么？

比如在Atari by deep mind 的论文中，图2 中它决定了什么。左？图2左右有什么区别？

图 2：左侧的两个图分别显示了训练期间 Breakout 和 Seaquest 的每集平均奖励。统计数据是通过对 10000 步运行 = 0.05 的 -greedy 策略计算的。右边的两个图分别显示了 Breakout 和 Seaquest 上一组状态的平均最大预测动作值。一个 epoch 对应于 50000 个小批量权重更新或大约 30 分钟的训练时间。