在一些off-policy Q-learning的实现中,我们需要知道行为策略给出的动作概率(例如,如果我们想使用重要性采样)。
就我而言,我正在使用 Deep Q-Learning并使用Thompson Sampling选择动作。我按照“我的深度模型不知道什么......”中的方法实现了这一点:我将 dropout 添加到我的 Q 网络并通过执行单个随机前向传递通过 Q 网络来选择操作(即,启用 dropout ) 并选择具有最高 Q 值的动作。
那么,我该如何计算何时使用基于 dropout 的 Thompson Sampling?