什么是递归强化学习

机器算法验证 机器学习 强化学习
2022-01-21 03:33:58

我最近遇到了“循环强化学习”这个词。我了解什么是“循环神经网络”和什么是“强化学习”,但找不到太多关于什么是“循环强化学习”的信息。

有人可以向我解释什么是“循环强化学习”以及“循环强化学习”和像 Q-Learning 算法这样的普通“强化学习”有什么区别。

2个回答

什么是“循环强化学习”?

循环强化学习 ( RRL ) 于 1996 年首次用于训练神经网络交易系统。“循环”意味着先前的输出作为输入的一部分输入到模型中。它很快扩展到外汇市场交易。

RRL技术已被发现是用于构建金融交易系统的成功机器学习技术

“循环强化学习”和普通的“强化学习”(如 Q-Learning 算法)有什么区别?

RRL方法明显不同于动态规划强化算法例如TD-learningQ-learning,后者试图估计控制问题的值函数

RRL框架允许创建简单而优雅的问题表示,避免贝尔曼的维数诅咒,并在效率方面提供引人注目的优势:

RRL自然地产生真正有价值的动作(投资组合权重),而无需求助于Q-learning中的离散化方法。

当暴露于噪声数据集时,RRL与Q-learning相比具有更稳定的性能。Q-learning算法由于动态优化的递归特性,对值函数的选择(可能)更加敏感,而RRL算法在目标函数的选择上更加灵活,节省了计算时间。

使用RRL,可以通过最大化性能函数来优化交易系统,U(),如“利润”(交易成本后的回报)、“财富”、财富的效用函数或风险调整后的绩效比率,如“夏普比率”。

在这里,您将找到 RRL 算法的 Matlab 实现。


参考

交易强化学习

交易系统和投资组合的强化学习

通过循环强化学习进行外汇交易

使用循环强化学习 (RRL) 进行股票交易

使用 Q-Learning 和循环强化学习的算法交易

探索自动外汇交易的算法——构建混合模型

(深度)循环 RL 的区别在于,将代理观察映射到其输出动作的函数是循环神经网络。

循环神经网络是一种神经网络,它按顺序处理每个观察,每个时间步以相同的方式处理。

原始论文:Deep Recurrent Q-Learning for Partially Observable MDPs