我最近阅读了 DQN论文,标题为:Playing Atari with Deep Reinforcement Learning。我对论文的基本粗略理解如下:
你有两个神经网络;一个在一段时间内保持冻结,并用于使用正在更新的神经网络计算损失函数。损失函数用于使用梯度下降来更新神经网络。
使用经验回放,这基本上创建了经验的缓冲区。这个经验缓冲区是随机采样的,这些随机样本用于更新非冻结神经网络。
我的问题与论文中说明的 DQN 算法有关:算法 1,更具体地说是该算法的第 4 行和第 9 行。我的理解,在论文的前面也提到过,状态实际上是游戏帧的序列。我想知道,既然输入是给 CNN 的,我们将如何对这些帧进行编码以作为 CNN 的输入?
我也想知道等于一个集合,在算法的第4行可以看出,那为什么是等于,,?