人工智能 - 从回复内存中随机抽样和顺序抽样有什么区别？ - 吾爱随笔录

人工智能机器学习强化学习 dqn 经验回放

2021-10-20 01:11:20

我正在研究一个 RL 问题，我在某个特定点上感到困惑。我们使用回放记忆，以便网络了解以前的操作以及这些操作如何导致成功或失败。

现在，为了训练神经网络，我们使用来自该回放或经验记忆的批次。但这是我的困惑。

像这样的一些地方从内存中提取随机（非序列）批次来训练神经网络，但Andrej Karpathy使用序列数据来训练网络。

有人能告诉我为什么会有不同吗？

0个回答

没有发现任何回复~

其它你可能感兴趣的问题