数据挖掘 - “对于 135,000 个验证帧，每 250,000 个训练帧对每个代理进行评估”这句话代表什么？在 DQN 自然论文中？ - 吾爱随笔录

在 DeepMind 的 DQN 的自然论文中，DQN 被比作线性函数，但他们没有说这个线性函数是什么？他们与一些线性函数进行比较？

0- DQN自然论文中“每个代理每250,000个训练帧评估135,000个验证帧”这句话是什么意思？

2- 这句话的含义是什么：“请注意，这些评估情节在 5 分钟时没有被截断，导致 Enduro 得分更高”

1-这是否正确：我们只是放置一个带有输入和输出的网络？我不明白为什么它的表现非常如何？

DQN 代理的性能在 5 个验证游戏上与线性函数逼近器的性能进行了比较（即，使用单个线性层而不是卷积网络，结合重放和单独的目标网络）。使用标准超参数和三种不同的学习率对代理进行了 1000 万帧的训练。每个代理每 250,000 个训练帧评估 135,000 个验证帧，并报告最高的平均情节得分。请注意，这些评估事件在 5 分钟时没有被截断，导致 Enduro 的分数高于扩展数据表 2 中报告的分数。请注意，与扩展数据表 2 中显示的主要结果（5000 万帧）相比，训练帧的数量（1000 万帧）更短。