我最近遇到了“循环强化学习”这个词。我了解什么是“循环神经网络”和什么是“强化学习”,但找不到太多关于什么是“循环强化学习”的信息。
有人可以向我解释什么是“循环强化学习”以及“循环强化学习”和像 Q-Learning 算法这样的普通“强化学习”有什么区别。
我最近遇到了“循环强化学习”这个词。我了解什么是“循环神经网络”和什么是“强化学习”,但找不到太多关于什么是“循环强化学习”的信息。
有人可以向我解释什么是“循环强化学习”以及“循环强化学习”和像 Q-Learning 算法这样的普通“强化学习”有什么区别。
什么是“循环强化学习”?
循环强化学习 ( RRL ) 于 1996 年首次用于训练神经网络交易系统。“循环”意味着先前的输出作为输入的一部分输入到模型中。它很快扩展到外汇市场交易。
RRL技术已被发现是用于构建金融交易系统的成功机器学习技术。
“循环强化学习”和普通的“强化学习”(如 Q-Learning 算法)有什么区别?
RRL方法明显不同于动态规划和强化算法,例如TD-learning和Q-learning,后者试图估计控制问题的值函数。
RRL框架允许创建简单而优雅的问题表示,避免贝尔曼的维数诅咒,并在效率方面提供引人注目的优势:
RRL自然地产生真正有价值的动作(投资组合权重),而无需求助于Q-learning中的离散化方法。
当暴露于噪声数据集时,RRL与Q-learning相比具有更稳定的性能。Q-learning算法由于动态优化的递归特性,对值函数的选择(可能)更加敏感,而RRL算法在目标函数的选择上更加灵活,节省了计算时间。
使用RRL,可以通过最大化性能函数来优化交易系统,,如“利润”(交易成本后的回报)、“财富”、财富的效用函数或风险调整后的绩效比率,如“夏普比率”。
在这里,您将找到 RRL 算法的 Matlab 实现。
(深度)循环 RL 的区别在于,将代理观察映射到其输出动作的函数是循环神经网络。
循环神经网络是一种神经网络,它按顺序处理每个观察,每个时间步以相同的方式处理。
原始论文:Deep Recurrent Q-Learning for Partially Observable MDPs