我无法理解Prioritized Replay (page 5)中重要性采样权重 (IS) 的目的。
转换的“成本”越大,就越有可能从经验回放中采样。我的理解是,“IS”有助于在我们训练足够长的时间后顺利放弃使用优先回放。 但是我们改用什么,统一采样?
我想我无法意识到这样一个系数中的每个分量是如何影响结果的。有人可以用文字解释吗?
然后它被用来抑制渐变,我们试图从过渡中获得。
在哪里:
- 伊斯兰国”
- N 是体验重放缓冲区的大小
- P(i) 是选择转移的机会 ,取决于“它的成本有多胖”。
- 从 0.4 开始,随着每个新的 epoch 越来越接近 1。
我对这些参数的理解是否也正确?
编辑在接受答案后的某个时候,我发现了一个额外的来源,一个可能对初学者有帮助的视频 - MC Simmmulations: 3.5 Importance Sampling
编辑正如@avejidah 在对他的回答的评论中所说的“ 用于通过样本被采样的概率对样本进行平均”。
要了解为什么它很重要,假设固定为 1,我们有4 个样本,每个样本都有如下:
0.1 0.2 0.3 0.4
也就是说,第一个条目有 10% 被选中,第二个是 20%,依此类推。现在,反转它们,我们得到:
10 5 3.333 2.5
通过平均(在我们的例子中是) 我们得到:
2.5 1.25 0.8325 0.625 ...which would add up to '5.21'
正如我们所看到的,它们比简单的反转版本更接近于零()。这意味着我们的网络的梯度不会被放大太多,从而在我们训练我们的网络时导致更少的方差。
所以,没有这个我们是否幸运地选择了最不可能的样本(),梯度将被缩放 10 倍。更小的值会更糟,比如说机会,如果我们的经验回放有数千个条目,这是很常见的。
换句话说,只是为了让你的超参数(例如学习率)不需要调整,当你改变你的经验回放缓冲区的大小时。