我正在使用带有 DDQN 的优先体验重放 (PER)。为了补偿由于非均匀选择而导致的相对高值样本的过度拟合,我正在使用与 PER 样本一起提供的样本权重进行训练,以根据每个样本的选择概率来淡化每个样本的损失贡献。我观察到这些样本权重通常从到,随着缓冲区逐渐填满(4.8M 样本)。
当使用这种补偿时,与非重量补偿方案相比,每集的最大 Q 值的增长会过早地停止。我认为这是因为反向传播更新的大小正在被样本权重大大减少。
为了纠正这个问题,我尝试采用 PER 报告的经过 beta 调整的最大权重(批次标准化的相同缓冲区范围值)并将基本学习率乘以它,从而在每个批次之后调整优化器选择。
我的问题有两个:
这是对正在发生的事情的正确解释吗?
以这种方式补偿样本权重是否是标准做法?
尽管它似乎在保持 Q 增长的同时抑制损失,但我无法找到任何关于此的信息,也没有找到任何以这种方式进行补偿的实现,因此对数学有效性存在重大疑问其中。