根据 DeepMinds 的论文Prioritized Experience Replay (2016),特别是附录 B.2.1 “Proportional priorityization”(第 13 页),应该平均划分优先级范围进入范围,其中是批次的大小,并在这些子范围内采样一个随机变量。然后使用该随机变量根据其优先级(概率)从总和树中对体验进行采样。
为什么我们需要这样做?为什么不简单地抽样随机变量并得到和树中的变量,而不将优先级范围划分为不同的范围?这不一样吗?
根据 DeepMinds 的论文Prioritized Experience Replay (2016),特别是附录 B.2.1 “Proportional priorityization”(第 13 页),应该平均划分优先级范围进入范围,其中是批次的大小,并在这些子范围内采样一个随机变量。然后使用该随机变量根据其优先级(概率)从总和树中对体验进行采样。
为什么我们需要这样做?为什么不简单地抽样随机变量并得到和树中的变量,而不将优先级范围划分为不同的范围?这不一样吗?