异步反馈的强化学习

人工智能 强化学习 即时的 延迟奖励
2021-11-09 23:37:36

我想要关于强化学习算法文献的建议,这些算法在环境异步反馈下表现良好。我所说的异步反馈的意思是,当代理执行一个动作时,它会在一段时间后从环境中获得反馈(奖励或遗憾),而不是立即。我只见过具有即时反馈和异步更新的算法。我不知道是否存在关于这个问题的文献。这就是我在这里问的原因。

我的应用是银行欺诈检测,我的理解是,当检测到欺诈时,系统有时需要 15-45 天才能将其标记为欺诈,直到客户抱怨系统不知道其欺诈。

我将如何设计一个使用强化学习来标记欺诈或正常交易的实时系统?

也许我的理解是错误的,如果有人可以帮助我,我将自己学习,我将不胜感激。

我关注强化学习而不是监督学习的原因是,在银行业场景中很难获得真实数据。欺诈者在欺诈检测方面始终是最新的或超过最先进的。所以我决定强化学习将是寻找解决这个问题的最佳方向。

2个回答

我一直在寻找您所描述的问题(包括相同的应用程序域),但找不到太多。

最明显、数学上“正确”的解决方案是简单地将标准强化学习更新规则(您选择实施的任何算法)延迟 45 天;如果它仍然没有被报告为欺诈,那么假设它是真实的。但是,这会导致一些问题;

  • 需要大量内存来存储尚未用于更新的体验
  • 学习只有在显着延迟后才开始,此时您还没有学到任何东西,因此很可能会长时间运行次优策略
  • 适应欺诈者的新策略非常缓慢
  • 对已经提前报告欺诈案件的人(例如 10 天后)怎么办?还是将它们延迟整整 45 天,还是立即触发更新(并可能打乱实际发生体验的顺序)?

以下是一个快速而肮脏的“解决方案”

  • 当交易发生时,在假设它是真实交易的情况下立即触发学习更新(例如,奖励为R = +1)。
  • 如果该交易后来被报告为欺诈,则触发额外的更新(使用同一对),但在欺诈案件的正常负奖励之上,(state, action)先前错误分配的奖励被否定。例如,如果您通常会为真品和欺诈行为捐款,请立即给予奖励此奖励不会以完全正确的方式纠正先前分配的错误奖励(更新序列中的潜在错误位置,由于使用的算法而导致的折扣),但它应该有点接近(尤其是如果并且是接近)。R = +1R = -100R = -101gammalambdagammalambda1.0

这当然不理想,理论基础很少,可能会破坏很多强化学习理论,但至少它在计算和记忆方面是有效的,而且根据我的经验,它在实践中运行良好。


如果您使用的是非策略RL 算法,您可以使用体验重放缓冲区(这些天在深度 RL 中非常流行的 DQN 风格的东西,但也可以用于表格 RL / RL 与线性函数逼近等)。如果您过去已经有通过某些非 RL 策略生成的历史数据(这通常是欺诈检测/银行应用程序中的情况,即使它们并不总是共享这些数据,它们也确实有大量数据),您可以使用它填充您的体验重播缓冲区。在第一个解决方案的情况下(在这个答案的顶部),这可以用于在 45 天的初始延迟期间进行训练。

由于您预计会有概念漂移(欺诈者会随着时间的推移调整他们的行为),因此您需要小心重放体验。旧数据将变得不那么有用。


一种非常不同的解决方案是假设您有一个可用的人类专家团队,他们可以相对快速地调查一小部分传入交易这对于实践中的大公司来说往往是正确的(“调查”通常意味着给持卡人打电话)。这使您能够更快地为一小部分数据生成准确的反馈,因此您还可以在更短的延迟下进行强化学习(尽管仅针对您的一小部分经验)。

您可以在以下论文中阅读更多关于这个想法的信息(免责声明:我是它的作者):

除了这个想法之外,您可能还会发现对其他相关工作的引用、指向您可以使用的数据的链接等很有趣。


我觉得应该可以用适当的算法来扩展现有的强化学习理论;

  1. 立即采取具有假定的、默认的、可能不正确的奖励的学习步骤,并且
  2. 如果奖励结果与之前事后认为的不同,则追溯纠正之前的错误更新。

不过,我不知道现有的文献中有这样做的,而且这当然不是微不足道的;它需要从“第一原则”(例如,贝尔曼操作员)开始。

直观地说,我还希望完全正确地执行此操作将始终需要大量内存(持卡人所有先前交易的内存,以便在必要时可以重新生成状态-动作对)。无论如何,银行可能已经为每个客户存储了此类数据,因此在实践中这可能不是问题。

如果有人打算在这方面工作,请随时与我联系,我很可能很乐意合作:D

这个问题使用了反馈这个词,并提到了不止一个反馈渠道,“奖励和遗憾”,表明对纠正信号的理解。一些看似科学的强化学习文献缺乏这种理解,所以要小心。

反馈信息的时间延迟并不是银行欺诈检测案例所独有的。它是一般安全漏洞检测的核心,包括网站托管和电信黑客攻击。它也是许多其他技术领域的核心,从网络战斗到化学工程再到石油勘探。

早期的控制系统是速度或方向调节器中使用的 PID 形式。其中,时间元素仅被分析以避免振荡、过冲和下冲。这些在欺诈检测系统中仍然相关,但对控制系统有更多要求,特别是多维非线性。

因此,控制理论在测量行为健康的方向上得到了更多的扩展。数字系统中的早期时间元素包括用于应用程序的随机存取存储器和用于程序和数据的持久存储器。随着生产就绪型人工智能的出现,时间要素包括获取的规则、模糊规则权重、与机器学习组件对应的网络参数的收敛以及其他学习信息。

金融欺诈检测中的概念证明与许多其他领域相同,在这些领域中,反馈可能在做出决定或通过人工学习网络传播信号后的几分钟、几小时、几天或几个月内发生:高等生命的神经网络形式,其中异步适应扩展了基于 DNA 的进化适应,疼痛反馈通过更抽象的反馈形式得到增强。在类人动物和灵长类动物中,社会满意度涉及特定的信号传导,该信号传导涉及神经化合物,如血清素和催产素。

这种适应符合反射和 DNA 适应之间的不同步性,范围从巴甫洛夫的条件反应到承诺的社会现象。这些能力的重要性是因为并非所有的感官输入都能在生物或人工控制系统展示后立即提供有关行为的有用反馈。

下面有一些建议阅读,您可能想要检查贝叶斯定理以及您可以下载的几乎所有常见编程语言中的一些软件,这些语言实现了所谓的朴素贝叶斯分类。正是通过概率论的数学,才能实现最好的因果模型。您可能想要做的是首先学习用数字建模因果关系的关键要素,然后考虑如何通过人工网络增强基本的概率因果关系建模。

尽管 Richard Sutton 和 Andrew Barton 的Reinforcement learning: An Introduction (1998 MIT Press) 被认为是一个很好的概述,但早期的比较工作提供了一个更直接的途径来回答有关算法的问题。

当您着手进行涉及学习和异步性的算法开发时,重要的是要从一开始就知道实时编程(例如现在用于高速交易)不适合胆小的人。实时处理对算法提出了两个以可靠性为中心的要求,如果你想要一个稳定、低维护的系统,就应该严格解决它们。

  • 状态安全——在机器学习中,处理反馈的功能在电路的前向传播使用时不得改变一组相互关联的参数。
  • 可重入——在机器学习中,来自传入信号的中断和状态变化不得挫败算法在恢复时中断的意图。

关于对银行系统的攻击,将会升级。银行采取的反制措施将被小偷的反制措施所满足。这是一场游戏,银行业明智地聘请了解学习依赖于反馈的研究人员和工程师。

出于这个原因,您可能无法在文献中找到最佳的最终设计。银行自然会采用保密协议 (NDA) 来阻止攻击者通过网络搜索获取有关防御策略的知识。(如果它在网络上,它可能已经被黑客入侵了。)

作为他们雇用的研究人员和工程师,我们明智地在欺诈检测系统中采用异步反馈和实时学习,并寻求更明智的位置以领先于不重视除自己以外的任何人的财产权的工程师。

推荐文献

基于价值函数的强化学习算法的统一分析,Csaba Szepesvari,Michael L. Littman,1998 年 10 月 27 日

深度强化学习的异步方法,Volodymyr Mnih 等人,蒙特利尔大学,2016

具有异步关闭策略更新的机器人操作的深度强化学习,Shixiang Gu,Ethan Holly,Timothy Lillicrap,Sergey Levine,2016

动态因果建模,KJ Friston、L. Harrison 和 W. Penny,英国神经病学研究所,2003 年