数据挖掘 - 离线/批量强化学习：双重鲁棒的离策略估计器具有巨大的价值 - 吾爱随笔录

语境：

我和我的团队正在研究针对特定应用程序的 RL 问题。我们从用户交互（状态、操作等）中收集数据。

我们模仿代理的成本太高了。因此，我们决定专注于离线 RL 技术。为此，我们目前正在使用英特尔的 RL-Coach 库，它提供对 Batch/Offline RL 的支持。更具体地说，为了评估离线设置中的策略，我们训练了一个 DDQN-BCQ 模型并使用离线策略估计器 (OPE) 评估学习到的策略。

工具：

RL-Coach 库实现了不同的 OPE：

对于上下文强盗问题：逆倾向得分 (IPS)、直接方法奖励 (DM)、双重鲁棒 (DR)
对于成熟的 RL 问题：加权重要性采样 (WIS) 和双重鲁棒 (Seq-DR) 的顺序版本

Seq-DR的实现基于以下论文https://arxiv.org/pdf/1511.03722.pdf，定义如下： $V_{DR}^{H+1-t} := \hat{V}(s_t) + \rho_t(r_t + \gamma V_{DR}^{H-t} - \hat{Q}(s_t, a_t))$ ，在哪里 $\rho_t = \frac{\pi_e(a_t|s_t)}{\pi_b(a_t|s_t)}$ . 目标策略概率 $\pi_e(s|a)$ 由学习 Q 表的 softmax 计算得出 $\hat{Q}(s,a)$ . 状态值估计 $\hat{V}(s_t)$ 也是根据 Q 表值和 softmax 概率计算的。行为策略概率 $\pi_b(s|a)$ 是直接从数据中估算出来的。

问题：

在每个 epoch，我们使用 Seq-DR 评估学习到的策略。系统地，我们从以下订单中获得巨大的价值 $10^{18}$ 到 $10^{38}$ ，而 WIS 估计给出的值在 100 到 500 之间，考虑到我们数据中的回报，这要明智得多。

问题原因探索：

我已经分别查看了构成上述方程的不同术语，也看看这些估计爆炸来自哪里。我发现，在我们的数据中评估相同的特定情节时，Seq-DR 值总是会爆炸。我专注于一个特定的，并查看每次转换后的估计值。基本上，发生的事情是在某个过渡 $t$ ，在〜5个连续的过渡期间， $\rho_t = ~7$ （虽然它通常取 0 到 2 之间的值）并且这些转换足以开始 Seq-DR 估计的爆炸式增长（因为定义是递归的）。上述公式中的所有其他项都有合理的值，我很确定爆炸不是因为它们。

我们还尝试查看剧集的长度。我们的剧集实际上有不同长度的值，有时可能很长，其中不存在清晰的视界（无限视界情况）。我们试图将这些片段切成长度为 20 的较小片段，看看问题是否会消失，因为长片段可能会导致值不稳定，但这并没有改变任何东西，Seq-DR 值仍然会爆炸。

问题：

为什么双重稳健估计器会给出如此巨大的值？双稳健估计器是基于模型的估计器和重要性采样估计器的组合。当以下两个条件之一为真时，他们应该仍然给出好的值：1）奖励模型是准确的，2）行为策略接近现实。如果我们使用 WIS 估计器获得的值是合理的，为什么我们会完全偏离 DR 估计器的值？

这是否可能仅仅因为 Q 值目标策略概率和行为策略概率之间的分布变化而发生，即 Q 值希望在我们实际上只有很少数据的情况下采取行动？但在这种情况下，WIS 估计不应该也完全关闭吗？