离线/批量强化学习:双重鲁棒的离策略估计器具有巨大的价值

数据挖掘 机器学习 数据集 强化学习 q学习 估计者
2022-02-22 14:16:02

语境:

我和我的团队正在研究针对特定应用程序的 RL 问题。我们从用户交互(状态、操作等)中收集数据。

我们模仿代理的成本太高了。因此,我们决定专注于离线 RL 技术。为此,我们目前正在使用英特尔的 RL-Coach 库,它提供对 Batch/Offline RL 的支持。更具体地说,为了评估离线设置中的策略,我们训练了一个 DDQN-BCQ 模型并使用离线策略估计器 (OPE) 评估学习到的策略。

工具:

RL-Coach 库实现了不同的 OPE:

  • 对于上下文强盗问题:逆倾向得分 (IPS)、直接方法奖励 (DM)、双重鲁棒 (DR)
  • 对于成熟的 RL 问题:加权重要性采样 (WIS) 和双重鲁棒 (Seq-DR) 的顺序版本

Seq-DR的实现基于以下论文https://arxiv.org/pdf/1511.03722.pdf,定义如下:VDRH+1t:=V^(st)+ρt(rt+γVDRHtQ^(st,at)), 在哪里ρt=πe(at|st)πb(at|st). 目标策略概率πe(s|a)由学习 Q 表的 softmax 计算得出Q^(s,a). 状态值估计V^(st)也是根据 Q 表值和 softmax 概率计算的。行为策略概率πb(s|a)是直接从数据中估算出来的。

问题:

在每个 epoch,我们使用 Seq-DR 评估学习到的策略。系统地,我们从以下订单中获得巨大的价值10181038,而 WIS 估计给出的值在 100 到 500 之间,考虑到我们数据中的回报,这要明智得多。

问题原因探索:

我已经分别查看了构成上述方程的不同术语,也看看这些估计爆炸来自哪里。我发现,在我们的数据中评估相同的特定情节时,Seq-DR 值总是会爆炸。我专注于一个特定的,并查看每次转换后的估计值。基本上,发生的事情是在某个过渡t,在〜5个连续的过渡期间,ρt= 7(虽然它通常取 0 到 2 之间的值)并且这些转换足以开始 Seq-DR 估计的爆炸式增长(因为定义是递归的)。上述公式中的所有其他项都有合理的值,我很确定爆炸不是因为它们。

我们还尝试查看剧集的长度。我们的剧集实际上有不同长度的值,有时可能很长,其中不存在清晰的视界(无限视界情况)。我们试图将这些片段切成长度为 20 的较小片段,看看问题是否会消失,因为长片段可能会导致值不稳定,但这并没有改变任何东西,Seq-DR 值仍然会爆炸。

问题:

为什么双重稳健估计器会给出如此巨大的值?双稳健估计器是基于模型的估计器和重要性采样估计器的组合。当以下两个条件之一为真时,他们应该仍然给出好的值:1)奖励模型是准确的,2)行为策略接近现实。如果我们使用 WIS 估计器获得的值是合理的,为什么我们会完全偏离 DR 估计器的值?

这是否可能仅仅因为 Q 值目标策略概率和行为策略概率之间的分布变化而发生,即 Q 值希望在我们实际上只有很少数据的情况下采取行动?但在这种情况下,WIS 估计不应该也完全关闭吗?

0个回答
没有发现任何回复~