在 DeepMind 的 DQN 的自然论文中,DQN 被比作线性函数,但他们没有说这个线性函数是什么?他们与一些线性函数进行比较?
0- DQN自然论文中“每个代理每250,000个训练帧评估135,000个验证帧”这句话是什么意思?
2- 这句话的含义是什么:“请注意,这些评估情节在 5 分钟时没有被截断,导致 Enduro 得分更高”
1-这是否正确:我们只是放置一个带有输入和输出的网络?我不明白为什么它的表现非常如何?
DQN 代理的性能在 5 个验证游戏上与线性函数逼近器的性能进行了比较(即,使用单个线性层而不是卷积网络,结合重放和单独的目标网络)。使用标准超参数和三种不同的学习率对代理进行了 1000 万帧的训练。每个代理每 250,000 个训练帧评估 135,000 个验证帧,并报告最高的平均情节得分。请注意,这些评估事件在 5 分钟时没有被截断,导致 Enduro 的分数高于扩展数据表 2 中报告的分数。请注意,与扩展数据表 2 中显示的主要结果(5000 万帧)相比,训练帧的数量(1000 万帧)更短。