机器算法验证 - 什么是递归强化学习 - 吾爱随笔录

机器算法验证机器学习强化学习

2022-01-21 03:33:58

我最近遇到了“循环强化学习”这个词。我了解什么是“循环神经网络”和什么是“强化学习”，但找不到太多关于什么是“循环强化学习”的信息。

有人可以向我解释什么是“循环强化学习”以及“循环强化学习”和像 Q-Learning 算法这样的普通“强化学习”有什么区别。

2个回答

什么是“循环强化学习”？

循环强化学习 ( RRL ) 于 1996 年首次用于训练神经网络交易系统。“循环”意味着先前的输出作为输入的一部分输入到模型中。它很快扩展到外汇市场交易。

RRL技术已被发现是用于构建金融交易系统的成功机器学习技术。

“循环强化学习”和普通的“强化学习”（如 Q-Learning 算法）有什么区别？

RRL方法明显不同于动态规划和强化算法，例如TD-learning和Q-learning，后者试图估计控制问题的值函数。

RRL框架允许创建简单而优雅的问题表示，避免贝尔曼的维数诅咒，并在效率方面提供引人注目的优势：

RRL自然地产生真正有价值的动作（投资组合权重），而无需求助于Q-learning中的离散化方法。

当暴露于噪声数据集时，RRL与Q-learning相比具有更稳定的性能。Q-learning算法由于动态优化的递归特性，对值函数的选择（可能）更加敏感，而RRL算法在目标函数的选择上更加灵活，节省了计算时间。

使用RRL，可以通过最大化性能函数来优化交易系统， $U( )$ ，如“利润”（交易成本后的回报）、“财富”、财富的效用函数或风险调整后的绩效比率，如“夏普比率”。

在这里，您将找到 RRL 算法的 Matlab 实现。

（深度）循环 RL 的区别在于，将代理观察映射到其输出动作的函数是循环神经网络。

循环神经网络是一种神经网络，它按顺序处理每个观察，每个时间步以相同的方式处理。

其它你可能感兴趣的问题