我正在研究一个 RL 问题,我在某个特定点上感到困惑。我们使用回放记忆,以便网络了解以前的操作以及这些操作如何导致成功或失败。
现在,为了训练神经网络,我们使用来自该回放或经验记忆的批次。但这是我的困惑。
像这样的一些地方从内存中提取随机(非序列)批次来训练神经网络,但Andrej Karpathy使用序列数据来训练网络。
有人能告诉我为什么会有不同吗?
我正在研究一个 RL 问题,我在某个特定点上感到困惑。我们使用回放记忆,以便网络了解以前的操作以及这些操作如何导致成功或失败。
现在,为了训练神经网络,我们使用来自该回放或经验记忆的批次。但这是我的困惑。
像这样的一些地方从内存中提取随机(非序列)批次来训练神经网络,但Andrej Karpathy使用序列数据来训练网络。
有人能告诉我为什么会有不同吗?