如何在深度 Q 学习中使用 Thompson 采样计算动作概率?

人工智能 强化学习 dqn 深度学习 辍学 汤普森抽样
2021-11-13 13:57:49

在一些off-policy Q-learning的实现中,我们需要知道行为策略给出的动作概率μ(a)(例如,如果我们想使用重要性采样)。

就我而言,我正在使用 Deep Q-Learning并使用Thompson Sampling选择动作我按照“我的深度模型不知道什么......”中的方法实现了这一点:我将 dropout 添加到我的 Q 网络并通过执行单个随机前向传递通过 Q 网络来选择操作(即,启用 dropout ) 并选择具有最高 Q 值的动作。

那么,我该如何计算μ(a)何时使用基于 dropout 的 Thompson Sampling?

1个回答

那么,我该如何计算μ(a)何时使用基于 dropout 的 Thompson Sampling?

我可以看到这个被计算的唯一方法是,如果你迭代所有可能的 dropout 组合,或者作为一个近似样本,比如 100 或 1000 个具有不同 dropout 的动作,以获得粗略的分布。

出于实际原因,我认为这是不可行的(由于这些计算,代理会学得慢得多,您不妨放弃 Thompson Sampling 并使用 epsilon-greedy),如果您将不得不避免使用重要性采样还想在没有简单方法计算分布的情况下使用动作选择技术。

许多形式的 Q 学习不使用重要性抽样。如果所选操作与最大化操作不同,这些通常只会重置资格跟踪。