为什么要在 Prioritized Experience Replay 中根据批大小划分优先级范围?

人工智能 强化学习 文件 经验回放
2021-10-24 00:12:17

根据 DeepMinds 的论文Prioritized Experience Replay (2016),特别是附录 B.2.1 “Proportional priorityization”(第 13 页),应该平均划分优先级范围[0,ptotal]进入k范围,其中k是批次的大小,并在这些子范围内采样一个随机变量。然后使用该随机变量根据其优先级(概率)从总和树中对体验进行采样。

为什么我们需要这样做?为什么不简单地抽样k随机变量[0,ptotal]并得到k和树中的变量,而不将优先级范围划分为k不同的范围?这不一样吗?

0个回答
没有发现任何回复~