离线/批量强化学习:何时停止训练以及选择什么代理

人工智能 训练 q学习 策略外方法 批量学习
2021-11-10 10:04:10

语境:

我和我的团队正在研究针对特定应用程序的 RL 问题。我们从用户交互(状态、动作、奖励等)中收集数据。

我们模仿代理的成本太高了。因此,我们决定专注于离线 RL 技术。为此,我们目前正在使用英特尔的 RL-Coach 库,它提供对 Batch/Offline RL 的支持。更具体地说,为了评估离线设置中的策略,我们训练了一个 DDQN-BCQ 模型并使用离线策略估计器 (OPE) 评估学习到的策略。

问题:

在在线 RL 设置中,何时停止代理训练的决定通常取决于一个人想要实现的目标(如本文所述:https ://stats.stackexchange.com/questions/322933/q-learning -何时停止训练)。如果目标是训练直到(奖励)收敛但不再训练,那么您可以例如在最后 n 步的奖励标准差下降到某个阈值以下时停止。如果目标是比较两种算法的性能,那么您应该使用相同数量的训练步骤简单地比较两者。

但是,在离线 RL 设置中,我相信停止训练的条件并不是那么明确。如上所述,没有直接可用的环境来评估我们的代理,并且对学习策略质量的评估几乎完全依赖于 OPE,而 OPE 并不总是准确的。

对我来说,我相信有两种不同的选择是有意义的。我不确定这两个选项是否实际上是等效的。

  1. 第一种选择是在 Q 值收敛/达到平稳期时停止训练(即当 Q 值网络损失收敛时)——如果他们曾经这样做过,因为我们真的不能保证会发生这种情况与人工神经网络。如果 Q 值确实达到了一个平台,这意味着我们的代理已经达到了一些局部最优(或者在最好的情况下,是全局最优)。
  2. 第二种选择是只查看 OPE 奖励估计,并在它们达到平稳状态时停止。但是,不同的 OPE 不一定会同时达到一个平台期,如下图所示。在 RL-Coach 的 Batch-RL 教程中,他们似乎会简单地选择不同 OPE 给出最高策略值估计的 epoch 的代理,而不检查网络的损失是否已经收敛(但这是只是一个教程,所以我想我们不能过分依赖它)。在此处输入图像描述

问题:

  • 在离线 RL 设置中选择何时停止训练代理的最佳标准是什么?
  • 此外,代理的性能通常在很大程度上取决于用于训练的种子。要评估总体性能,我相信您必须使用不同的种子进行多次训练?但是,最终,您仍然只希望部署一个代理。您是否应该简单地选择所有运行中具有最高 OPE 值的那个?

PS我不确定这个问题是否应该分成两个不同的帖子,所以如果是这样,请告诉我,我会编辑帖子!

1个回答

我们在现实世界中部署了一个使用离线 RL 算法的项目。评估策略的性能确实是一个非常棘手的问题。不幸的是,大多数现有的 OPE 方法对于许多实际问题还不够成熟,尤其是在评估相对复杂的任务和策略时。我们最终使用的最终解决方案实际上是一种组合方法:

  • 使用不同的种子和初始超参数训练多个策略。与在线 RL 算法相比,大多数现有的离线 RL 策略学习,即使是性能最好的一种,例如 CQL 或 Fisher-BRC,在训练过程中的策略方差都非常大。原因可能是由于无法很好地概括看不见的数据(在评估期间仍然存在严重的分布变化)以及训练不稳定性。训练多个策略是必须做的一步。
  • 应该对策略进行训练,直到 Q 值收敛/达到平台期。用太多步骤训练离线 RL 通常不会带来良好的性能。训练直到 Q 值收敛是大多数情况下的最佳实践。不要过分依赖 OPE,因为大多数现有方法目前表现不佳。
  • 对于 OPE,唯一适用于我们项目的方法实际上是简单拟合 Q 评估(FQE),它产生相对可靠的策略评估。这种方法并不完美,但相对稳定,可以帮助排除低 Q 值和错误学习的策略。过滤掉一些不好的策略是有帮助的,但不能保证找到最好的策略。对于其他 OPE 方法,基于重要性抽样的方法由于方差大而完全无法使用;双鲁棒方法仍然涉及重要性权重,因此仍然存在高方差和不准确问题;基于边缘化重要性采样 (MIS) 的方法理论上具有较低的方差(例如 DualDice 和其他 Dice 系列方法),但在我们的实验中不是很稳定并且也难以训练。我们认为唯一合理的方法是 FQE,
  • 我们用于策略选择的最终方法实际上如下。使用离线 RL 训练多个策略。使用离线数据拟合一个集成动态/奖励模型,并使用经过训练的策略推出几个步骤。如果策略导致大多数动态模型中的不合理状态(基于领域知识)或奖励下降,则从候选集中删除该策略。对候选集中的所有策略运行 FQE,并过滤掉 Q 值非常低的策略。上述两步将帮助您删除 50-80% 的不太好的政策。然后在真实环境中部署和测试生成的策略。尽管上述过程不能提供最佳策略,但它有助于缩小需要在现实世界中测试的策略集(不幸的是,
  • 以下论文实际上对多种 OPE 方法进行了一系列实证研究,这可能会有所帮助:“Voloshin C,Le HM,Jiang N,Yue Y.Empirical study of off-policy policy evaluation for强化学习。2019。”