我正在阅读有关Prioritized Experience Replay的内容,但无法理解以下内容:
在第 4 页,每个转换都可以从表格中以自己的概率选择。这是累积密度函数(如果我理解正确的话):
在哪里:
之后,论文说:
对于基于等级的变体,我们可以使用具有等概率 k 段的分段线性函数来近似累积密度函数。可以预先计算段边界(它们仅在 N 或 α 变化时变化)。在运行时,我们对一个段进行采样,然后在其中的转换中统一采样。
我的问题是,如果可以通过以下方式实现,为什么我们必须近似密度:
- 在 1 和 N 之间掷骰子(骰子掷出“1”而不是“2”等的可能性呈指数增长)
- 根据骰子从索引中选择一个项目。
在 c++ 中,我们有std::exponential_distribution [source],所以不需要近似任何东西。...如果我们保持我们的表按降序排序。
