在生产中获得 RL 的最大障碍是什么?

人工智能 强化学习 深度学习 应用
2021-10-31 01:08:21

我正在研究强化学习的最新技术,我的观点是,我们在现实世界中看到了很多在生产中使用监督和非监督学习算法的应用,但我对强化学习算法的看法不同。

在生产中获得 RL 的最大障碍是什么?

2个回答

有一篇相对较新的论文解决了这个问题: Gabriel Dulac-Arnold 等人的真实世界强化学习挑战(2019),它提出了将 RL 生产到现实世界问题中需要解决的所有挑战,目前解决挑战的方法/解决方案,以及评估它们的指标。我只会列出它们(基于我几周前做的笔记)。您应该阅读论文以了解更多详细信息。无论如何,对于熟悉 RL 的人来说,它们将是相当明显的。

  1. 批量离线和离线训练
    • 当前的一种解决方案是重要性抽样
  2. 从有限的样本中学习真实系统(样本效率低下)
    • 解决方案:MAML,使用专家演示引导代理,基于模型的方法
  3. 高维连续状态和动作空间
    • 解决方案:AE-DQN、DRRN
  4. 满足安全约束
    • 解决方案:受限MDP、安全探索策略等。
  5. 部分可观察性和非平稳性
    • 部分可观察性的解决方案:在观察中加入历史、循环神经网络等。
    • 非平稳性的解决方案:域随机化或系统识别
  6. 未指定和多目标奖励函数
    • 解决方案:CVaR、分布式 DQN
  7. 可解释性
  8. 实时推理
  9. 系统延迟(另见这个这个答案)

还有一篇最新的相关论文,Gabriel Dulac-Arnold 等人对现实世界强化学习挑战的实证调查(2020),这里有与实验相关的代码。

但是,请注意,RL(特别是老虎机)已经被用于解决至少一个现实世界的问题 [ 1 , 2 ]。另请参阅答案。

技术壁垒:至少应该有这些常识性的大壁垒:

  • 与现成的监督数据相比,试错技术使模型难以学习(太多)
  • 时间步数(通常等于轨迹中代理的动作数)很大,因此蛮力探索不起作用,因为发现错误的试验次数是指数级的,尽管负奖励可能有助于缩短时间蛮力树。
  • 现实生活中的强化学习需要无限数量的情节(对于每一情节,应该学习一系列动作),并且随着更多探索的数据,增量训练越来越难,除非删除一些过去和不再相关的数据,就像人类一样,我们忘记一些过去以了解更多,记住更多现在。

技术壁垒首先是将它们应用于商业的障碍。人们可能会相当快地手动生成一些监督数据,因此通常首先选择监督学习,没有人愿意尝试 RL。

更难找到人力资源:有监督学习经验的 AI 工程师更受欢迎,也更容易找到;使用 RL 的工作更少,因此如果使用 RL,业务项目就不容易执行。

但是,从我的角度来看,RL 在未来非常有前途,因为 AI 实体现在越来越独立。