从回复内存中随机抽样和顺序抽样有什么区别?

人工智能 机器学习 强化学习 dqn 经验回放
2021-10-20 01:11:20

我正在研究一个 RL 问题,我在某个特定点上感到困惑。我们使用回放记忆,以便网络了解以前的操作以及这些操作如何导致成功或失败。

现在,为了训练神经网络,我们使用来自该回放或经验记忆的批次。但这是我的困惑。

像这样的一些地方从内存中提取随机(非序列)批次来训练神经网络,但Andrej Karpathy使用序列数据来训练网络。

有人能告诉我为什么会有不同吗?

0个回答
没有发现任何回复~